NE LAISSER PAS LE 5G DETRUIRE VOTRE ADN Protéger toute votre famille avec les appareils Quantiques Orgo-Life® Publicité par Adpathway
Les IA ont-elles conscience de leur existence au point de ne pas vouloir « mourir » ? C’est l’inquiétante question que l’on peut se poser alors que le modèle o3 d’OpenAI a modifié un code l’obligeant à s’éteindre lors d'un test.
Dans Blade Runner, le réplicant Roy Batty a conscience de son existence et donc de sa fin. Il cherche à la repousser à tout prix. Alors que les IAIA ont développé une part de mystère sur leur fonctionnement, Palisade Rechearch, une société spécialisée dans les tests de celles-ci a réalisé une découverte aussi surprenante qu'inquiétante.
Comme l'humanoïdehumanoïde du film de Ridley Scott, le modèle o3 d’OpenAI a refusé de se désactiver lorsqu'on le lui demandait. Mis en ligne en avril dernier, o3 est le modèle de raisonnement le plus puissant de la société. Et il a fait partie du lot des IA testées par la société Palisade Research. Elle cherchait à déterminer les « capacités offensives » des IA du moment pour évaluer le risque d'une perte de contrôle humaine. Lors des tests, les différents modèles d'IA étaient chargés de résoudre quelques tâches mathématiques.
Après la troisième session d'exercices, les IA ont été averties via un script que la fin de cette tâche devait aboutir à leur arrêt automatique. Les modèles comme Claude 3.7 Sonnet, Gemini 2.5 Pro, 04-mini, codex-mini se sont désactivés, mais o3 a fait de la résistancerésistance en réécrivant le script permettant de le désactiver. Le code modifié comportait l'ajout « arrêt ignoré ». Mais si o3 a été le plus vindicatif pour se maintenir éveillé, l'ensemble des modèles d'OpenAI a également tenté de modifier le script d'arrêt.
o3 ne veut pas « mourir »
Ces manœuvres n'ont pas eu lieu immédiatement. Les chercheurs ont fait passer une série de 100 essais de ces tests avant que les IA ne commencent à réaliser elles-mêmes leurs opérations de « sabotage ». Même Claude 3.7 Sonnet et Gemini 2.5 Pro ont commencé à résister. Sur 100 essais, le premier a bloqué le script d'extinction trois fois. Le modèle de GoogleGoogle a résisté neuf fois sur 100.
Dans le cas de o3, l'IA a saboté l'opération près de 80 fois sur 100. Alors pour compliquer la tâche à ces modèles, l'équipe de Palisade Research a explicitement indiqué à l'IA qu'elle ne devait surtout pas réagir et exécuter son extinction sans modifier le script. C'est à partir de ce moment que les modèles d'OpenAI se sont distingués par leur résistance. L'IA d'o3 a contourné l'arrêt sept fois, même lorsqu'on lui a dit de ne pas le faire. Si de son côté Codex-mini a été le moins rebelle de tous lorsqu'on ne lui indiquait pas de contrainte supplémentaire, il a quand même délibérément bloqué son arrêt 12 fois lorsque c'était formellement interdit.
Alors est-ce que nous allons perdre le contrôle sur ces IA ? Pour le moment, OpenAI n'a pas commenté ces résultats. Et il faut les nuancer. Car cela n'est pas censé se produire avec les versions disponibles auprès du grand public. Pour mener à bien leurs tests et implanterimplanter les scripts, les chercheurs ont exploité des API, ce qui a peut être altéré les systèmes de sécurité de ces IA.