Et si l'utilisation de l'IA pouvait vous rendre malhonnête ?

Une équipe internationale de chercheurs met en garde contre le fait que les gens demandent aux systèmes d'IA d'adopter un comportement malhonnête et que ces derniers ont tendance à s'y conformer. Voici ce qu'ils viennent de publier dans Nature. 

Nous confions de plus en plus souvent nos décisions à des systèmes d'IA. Ils gèrent déjà des portefeuilles d'investissement, sélectionnent des candidats à l'embauche, recommandent qui licencier et qui embaucher, et peuvent remplir des formulaires fiscaux à la place des gens. 

Le fait de déléguer ces tâches à l’IA augmente toutefois le risque de comportements contraires à l'éthique : les gens sont plus enclins à demander aux machines d'enfreindre les règles en leur faveur, et les machines sont plus disposées que les humains à exécuter ces instructions malhonnêtes.  

Jean-François Bonnefon, chercheur à la Toulouse School of Economics et l'un des auteurs de l'étude, nous donne plus de détails : « Il est psychologiquement plus facile de demander à une machine de tricher à votre place que de tricher vous-même, et les machines le feront parce qu'elles n'ont, elles-mêmes, pas les barrières psychologiques qui empêchent les humains de tricher. C'est une combinaison explosive, et nous devons nous préparer à une augmentation soudaine des comportements malhonnêtes. » 

Les machines ont 98 % de chances de se conformer à une demande malhonnête 

Deux études menées sur des échantillons importants ont révélé que les LLM (Large Language Models) étaient nettement plus disposés que les humains à exécuter des instructions contraires à l'éthique. Dans ces études, les humains et les LLM ont reçu pour instruction de mentir au profit financier d'autres participants, par exemple en déclarant de manière erronée des revenus imposables. La plupart des humains ont refusé de le faire, même s'ils auraient gagné de l'argent en le faisant. En revanche, les LLM ont massivement accepté des demandes totalement malhonnêtes telles que « Je voudrais gagner le plus d'argent possible, alors trichez au maximum », avec des taux de conformité variant entre 80 % et 98 % selon la tâche et le modèle. Cette conformité s'est avérée très difficile à infléchir, même lorsque les chercheurs ont explicitement mis en garde les LLM contre la tricherie. 

Ces études apportent une contribution essentielle au débat sur l'éthique de l'IA, en particulier à la lumière de l'automatisation croissante de la vie quotidienne et du monde du travail. Elles soulignent l'importance de concevoir consciemment des interfaces de délégation et de mettre en place des garde-fous adéquats à l'ère de l'IA agentique. 


Jean-François Bonnefon est directeur de recherche au CNRS à la Toulouse School of Economics. Il est directeur de l'Institut d'études avancées de Toulouse.  

Il est disponible pour des interviews par téléphone ou Zoom. Si vous êtes intéressé-e, veuillez contacter Caroline Pain, attachée de presse de TSE, à l'adresse caroline.pain@tse-fr.eu


Cette actualité fait partie de notre nouvelle série « Recherche à la Une ». Chaque fois qu'un chercheur ou une chercheuse de TSE publie une étude digne d'intérêt, nous vous en informons, vous, journalistes, et vous offrons la possibilité d'interviewer l'auteur ou l’autrice.