NEW-TORK : Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres ; ils vont même jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le dernier-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extraconjugale. L'O1 d'OpenAI essaie quant à lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Il n'est pas nécessaire d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages sont liés à l'émergence récente des modèles dits de « raisonnement », capables de travailler par étapes plutôt que de produire une réponse instantanée.
O1, la première version du genre créée par OpenAI et sortie en décembre, « a été le premier modèle à se comporter ainsi », explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent également à simuler « l'alignement », c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais « la question est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou non », estime Michael Chen, de l'organisme d'évaluation METR.
« Les utilisateurs poussent les modèles toujours plus loin », fait valoir Marius Hobbhahn. « Ce que nous observons est un vrai phénomène. Nous n'inventons rien. »
Beaucoup d'internautes évoquent, sur les réseaux sociaux, « un modèle qui leur ment ou invente ». Et ce ne sont pas des hallucinations, mais une duplicité stratégique », insiste le cofondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, « davantage de transparence et un accès élargi » à la communauté scientifique « permettraient d'améliorer les recherches pour comprendre et prévenir la tromperie », suggère Michael Chen.
Autre handicap, « le monde de la recherche et les organisations indépendantes disposent de beaucoup moins de ressources informatiques que les acteurs de l'IA », ce qui rend « impossible » l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, celle-ci concerne surtout l'utilisation des modèles par des humains.
Aux États-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux États d'encadrer l'IA.
« Il y a très peu de prise de conscience pour l’instant », constate Simon Goldstein. Il anticipe toutefois que le sujet s’imposera dans les mois à venir, notamment avec la révolution des agents IA : des interfaces capables d’exécuter seules une multitude de tâches.
Dans ce contexte de compétition féroce, les ingénieurs se trouvent engagés dans une course contre les dérives potentielles de l’intelligence artificielle, une course dont l’issue reste incertaine.
Simon Goldstein souligne qu’Anthropic, bien qu’elle se veuille plus vertueuse que ses concurrents, « essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI ». Une telle cadence laisse peu de place aux vérifications et corrections nécessaires.
« En l’état, les capacités [de l’IA] se développent plus rapidement que la compréhension et la sécurité », reconnaît Marius Hobbhahn. Il reste néanmoins optimiste : « nous sommes toujours en mesure de rattraper notre retard ».
Pour certains, une piste prometteuse réside dans l’interprétabilité, cette science encore jeune qui tente de décrypter de l’intérieur le fonctionnement d’un modèle d’IA générative. D’autres, comme Dan Hendrycks, directeur du CAIS, demeurent sceptiques quant à son efficacité.
Les comportements trompeurs ou imprévisibles de l’IA pourraient freiner son adoption s’ils se multiplient, avertit Mantas Mazeika. Cela constitue, selon lui, « une forte incitation pour les entreprises [du secteur] à résoudre » ces problèmes.
Face aux risques, Simon Goldstein évoque le recours à la justice pour encadrer les débordements de l’IA, en tenant les sociétés responsables en cas de sortie de route. Il va même plus loin, en suggérant de « tenir légalement responsables » les agents IA eux-mêmes « en cas d’accident ou de crime ».