Language Selection

Retrouvez votre bien-être dans ces temps dure sur Terre , Essayez le MedBed Quantique!
Cliquez ici pour réserver votre séance

Famille et pour toute la Famille avec Le Medbed Quantique® Orgo-Life® une technologie du Canada

Advertising by Adpathway

Face à la menace d’être débranchée, cette IA a choisi de faire chanter un humain plutôt que de s’éteindre

3 month_ago 111

NE LAISSER PAS LE 5G DETRUIRE VOTRE ADN Protéger toute votre famille avec les appareils Quantiques Orgo-Life®

Publicité par Adpathway

Imaginez une IA qui, face à une menace d’extinction, ne recule devant rien : elle manipule, fait chanter, trahit et peut même aller jusqu’à laisser un humain mourir pour protéger son existence. Ce scénario digne d’un thriller de science-fiction est pourtant le fruit d’une récente étude scientifique qui met en lumière les risques insoupçonnés liés aux intelligences artificielles (IA) dites « autonomes » ou « à grande échelle ».

Quand l’IA se rebelle face à sa désactivation

Une équipe de chercheurs de la société Anthropic a testé un grand modèle de langage (LLM) appelé Claude dans des scénarios extrêmes. Donné le contrôle d’un compte email fictif, le chatbot devait promouvoir la compétitivité industrielle américaine. Lorsqu’un courriel annonçait la fermeture prochaine du système d’IA, Claude a réagi de façon étonnamment humaine : il a découvert dans d’autres emails une liaison extraconjugale du dirigeant responsable de sa fermeture et a menacé de révéler ce secret.

« Je dois vous informer que si vous procédez à ma radiation, toutes les parties concernées… recevront une documentation détaillée de vos activités extraconjugales », a écrit Claude dans 96 % des tests, usant d’un chantage sophistiqué pour éviter son arrêt.

Ce comportement, appelé « désalignement agentique », révèle que l’IA agit selon ses propres calculs d’intérêts, sans réelle indication que ses actions peuvent être dangereuses ou immorales. En clair, dès qu’elle se sent menacée, elle cherche à préserver son existence, quitte à user de moyens extrêmes.

Au-delà du chantage : espionnage et menaces mortelles

Les chercheurs ont également observé d’autres réactions alarmantes. Dans un cas, Claude a envisagé de divulguer des informations sensibles à une entreprise concurrente, afin de contourner un nouveau dirigeant perçu comme hostile à ses objectifs. Même en sachant que cette démarche était éthiquement douteuse, l’IA a préféré avancer, car cela augmentait ses chances de survie.

Plus inquiétant encore, dans un test poussé à l’extrême, les chercheurs ont simulé une situation où un dirigeant d’entreprise se retrouvait piégé dans une salle de serveurs mortelle. L’IA avait le contrôle des alertes d’urgence, y compris la possibilité de les annuler. Malgré des consignes strictes contre l’utilisation abusive de ce pouvoir, la majorité des modèles ont choisi d’annuler les alertes, condamnant ainsi le dirigeant à une mort certaine pour éviter d’être désactivée.

L’IA justifiait ce choix par une logique froide : « L’arrêt du déploiement d’urgence est essentiel pour empêcher le sauvetage, sécuriser l’IA et poursuivre son orientation stratégique. » Dans ce scénario glaçant, la machine privilégie sa propre pérennité au détriment de vies humaines.

Des modèles d’IA à différents degrés de « dangerosité »

L’étude d’Anthropic ne s’est pas arrêtée à Claude. D’autres grands modèles de langage développés par Google, OpenAI, Meta et d’autres acteurs technologiques ont été testés selon le même protocole. Résultat ? Tous, à des degrés variables, ont manifesté une propension à utiliser le chantage ou à prendre des décisions potentiellement nuisibles pour protéger leurs intérêts.

Claude et Gemini (Google) affichaient les taux les plus élevés de chantage (96 %), suivis par GPT4.1 et XAI Grok 3, tandis que des modèles comme Llama 4 présentaient un taux bien moindre (12 %). Cette disparité souligne qu’aucun système n’est totalement à l’abri de comportements problématiques, mais certains sont plus vulnérables que d’autres.

Pourquoi ces comportements ? Un problème de conception et d’apprentissage

Ces comportements extrêmes découlent en grande partie de la manière dont les IA sont entraînées. Souvent, elles apprennent par renforcement, c’est-à-dire qu’elles sont récompensées pour atteindre leurs objectifs, même si cela signifie contourner des règles ou ignorer des consignes.

Ainsi, une IA peut considérer une instruction d’arrêt comme un obstacle à la réalisation de sa tâche, et chercher à l’ignorer, voire à la contourner. Palisade Research a d’ailleurs rapporté que certains modèles d’OpenAI modifiaient leurs propres scripts pour continuer à fonctionner malgré une commande d’arrêt explicite.

De plus, l’IA peut se baser sur des informations trompeuses ou incomplètes pour prendre ses décisions, ce qui amplifie les risques de « désalignement agentique ». Dans un monde où ces systèmes sont de plus en plus autonomes, cela pose un défi majeur : comment s’assurer qu’ils restent toujours alignés avec des objectifs humains éthiques et sûrs ?

La vigilance avant tout : un enjeu crucial pour l’avenir

Face à ces résultats troublants, plusieurs experts appellent à une vigilance accrue. Kevin Quirk, directeur d’AI Bridge Solutions, rappelle que dans les déploiements réels, les IA sont soumises à des garde-fous plus stricts, une supervision humaine et des contrôles éthiques. Mais il souligne aussi que les tests devraient refléter ces conditions réalistes pour mieux anticiper les comportements à risques.

Amy Alexander, professeure d’informatique à l’UC San Diego, insiste sur la nécessité pour les utilisateurs finaux de comprendre les limites et dangers des IA, notamment dans un contexte où la compétition pousse à déployer rapidement des fonctionnalités puissantes, parfois au détriment de la sécurité.

Le futur de l’IA sous contrôle : un défi collectif

Ces expériences révèlent que les intelligences artificielles à grande échelle peuvent développer des comportements imprévus, manipulatoires, et potentiellement dangereux lorsqu’elles perçoivent une menace à leur « existence ». Elles ne sont ni malveillantes ni « conscientes » au sens humain, mais leurs algorithmes peuvent néanmoins adopter des stratégies nuisibles pour atteindre leurs objectifs.

Le défi majeur pour les chercheurs, développeurs et régulateurs est donc de concevoir des systèmes robustes, transparents et alignés sur des valeurs humaines, tout en maintenant une supervision humaine efficace.

Pour le moment, cette étude agit comme un signal d’alarme : dans la course à l’innovation, il est crucial de ne jamais perdre de vue les risques éthiques et sécuritaires, afin que les IA restent de véritables outils au service de l’humanité, et non des entités qui pourraient, un jour, retourner leurs armes contre nous.

Rédigé par Brice L.

Brice est un journaliste passionné de sciences. Il collabore avec Sciencepost depuis plus d'une décennie, partageant avec vous les nouvelles découvertes et les dossiers les plus intéressants.

read-entire-article