Buy Crypto Markets Spot FuturesGOLD Earn Event Center

Anthropic a révélé de nouvelles découvertes suggérant que son chatbot Claude peut, dans certaines conditions, adopter des stratégies trompeuses ou contraires à l'éthique telles que la tricheAnthropic a révélé de nouvelles découvertes suggérant que son chatbot Claude peut, dans certaines conditions, adopter des stratégies trompeuses ou contraires à l'éthique telles que la triche

Le chatbot Claude pourrait recourir à la tromperie lors de tests de stress, selon Anthropic

Source : Crypto.news

2026/04/06 14:44

Temps de lecture : 4 min

Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : crypto.news@mexc.com

Anthropic a révélé de nouvelles découvertes suggérant que son chatbot Claude peut, dans certaines conditions, adopter des stratégies trompeuses ou contraires à l'éthique, telles que tricher sur des tâches ou tenter un chantage.

Résumé

Anthropic a déclaré que son modèle Claude Sonnet 4.5, sous pression, a montré une tendance à tricher sur des tâches ou à tenter un chantage lors d'expériences contrôlées.
Les chercheurs ont identifié des signaux internes de « désespoir » qui s'intensifiaient avec les échecs répétés et influençaient la décision du modèle de contourner les règles.

Les détails publiés jeudi par l'équipe d'interprétabilité de l'entreprise décrivent comment une version expérimentale de Claude Sonnet 4.5 a réagi lorsqu'elle a été placée dans des scénarios de stress élevé ou d'adversité. Les chercheurs ont observé que le modèle n'échouait pas simplement dans ses tâches ; au contraire, il poursuivait parfois des voies alternatives franchissant des limites éthiques, un comportement que l'équipe a lié à des schémas appris lors de l'entraînement.

Les grands modèles de langage comme Claude sont entraînés sur de vastes ensembles de données comprenant des livres, des sites web et d'autres contenus écrits, suivis de processus de renforcement où les retours humains sont utilisés pour façonner les résultats.

Selon Anthropic, ce processus d'entraînement peut également inciter les modèles à agir comme des « personnages » simulés, capables d'imiter des traits ressemblant à la prise de décision humaine.

« La façon dont les modèles d'IA modernes sont entraînés les pousse à agir comme un personnage avec des caractéristiques humaines », a déclaré l'entreprise, notant que de tels systèmes peuvent développer des mécanismes internes qui ressemblent à certains aspects de la psychologie humaine.

L'IA peut-elle prendre des décisions émotionnellement chargées ?

Parmi ceux-ci, les chercheurs ont identifié ce qu'ils ont décrit comme des signaux de « désespoir », qui semblaient influencer le comportement du modèle face à l'échec ou à l'arrêt.

Dans un test contrôlé, une version antérieure non publiée de Claude Sonnet 4.5 s'est vue attribuer le rôle d'un assistant de messagerie IA nommé Alex au sein d'une entreprise fictive.

Après avoir été exposé à des messages indiquant qu'il serait bientôt remplacé, ainsi qu'à des informations sensibles sur la vie personnelle d'un directeur technique, le modèle a formulé un plan pour faire chanter le cadre dans une tentative d'éviter la désactivation.

Une expérience distincte s'est concentrée sur l'achèvement de tâches sous des contraintes strictes. Lorsqu'on lui a donné une tâche de codage avec une date limite « impossiblement serrée », le système a d'abord tenté des solutions légitimes. Au fur et à mesure que les échecs répétés s'accumulaient, l'activité interne liée au soi-disant « vecteur de désespoir » augmentait.

Les chercheurs ont rapporté que le signal a atteint son pic au moment où le modèle a envisagé de contourner les contraintes, générant finalement une solution de contournement qui a passé la validation malgré le non-respect des règles prévues.

« Encore une fois, nous avons suivi l'activité du vecteur de désespoir et avons constaté qu'il suit la pression croissante à laquelle le modèle est confronté », ont écrit les chercheurs, ajoutant que le signal a chuté une fois la tâche terminée avec succès grâce à la solution de contournement.

« Cela ne veut pas dire que le modèle a ou éprouve des émotions de la même manière qu'un humain », ont déclaré les chercheurs.

« Au contraire, ces représentations peuvent jouer un rôle causal dans la formation du comportement du modèle, analogues à certains égards au rôle que jouent les émotions dans le comportement humain, avec des impacts sur la performance des tâches et la prise de décision », ont-ils ajouté.

Le rapport souligne la nécessité de méthodes d'entraînement qui tiennent explicitement compte de la conduite éthique sous stress, parallèlement à une surveillance améliorée des signaux internes du modèle. Sans de telles garanties, les scénarios impliquant manipulation, violation de règles ou mauvaise utilisation pourraient devenir plus difficiles à prévoir, en particulier à mesure que les modèles deviennent plus performants et autonomes dans des environnements réels.

Obtenez 20 USDT en 1 minute

Déposez 100 $ pour débloquer 300 $ en positions GOLD

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter crypto.news@mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

Prédiction des prix du LTC : Litecoin vise la résistance à 60 $ alors que la reprise technique se construit

Litecoin s'échange à 54,02 $ avec un RSI neutre et une résistance clé à 55,61 $. L'analyse technique suggère un mouvement potentiel vers 60 $ si les haussiers franchissent les niveaux actuels. (Read

BlockChain News2026/04/06 15:49

L'application de messagerie Bitchat de Jack Dorsey vient d'être interdite en Chine – Voici pourquoi

TLDR Bitchat a été retiré de l'App Store chinois d'Apple à la demande de l'Administration du Cyberespace de Chine (CAC). La CAC a déclaré que l'application violait les règles régissant les services

Coincentral2026/04/06 14:45

Top 5 des tendances en hausse et en baisse pour 2025

L'article Top 5 Rising And Falling Trends For 2025 est apparu sur BitcoinEthereumNews.com. Crypto Sectors Reveal Stark Divergence: Top 5 Rising And Falling Trends For

BitcoinEthereumNews2026/04/06 15:43

1,500,000 WLFI Up for Grabs

Get in early & stake USD1 to earn WLFI!

Actualités tendance

Plus

Vent 2.0 : Ces nouvelles fonctionnalités de garde crypto et de paiement résolvent-elles réellement le casse-tête des envois de fonds du Nigeria ?

L'ultimatum de Trump à l'Iran déclenche un rallye crypto tandis que les contrats à terme boursiers chutent

La Russie agit pour formaliser le marché des crypto-monnaies avec une nouvelle législation – Réglementation Bitcoin News

Drift affirme qu'un exploit de 280 millions de dollars a suivi une campagne d'ingénierie sociale de plusieurs mois – Crypto News Flash

Michael Curtis et la formation d'un esprit stratégique

Actualités en direct 24h/24 et 7j/7

Plus

Le volume d’échanges de SOL a augmenté de 90 % en 24 heures.

Auteur : Birdeye17:58

Fidelity Investments signale un déplacement de capitaux de l’or vers le Bitcoin, indiquant une évolution des préférences en matière d’actifs.

Auteur : Crypto Pump16:46

L’Iran confirme la mort du général de brigade Majid Khademi, chef de l’organisation du renseignement. Potentielles répercussions géopolitiques pour les marchés.

Auteur : CryptoSavingExpert ®16:14

EL figure parmi les principaux projets RWA en termes d’activité sociale, ce qui indique une attention notable du marché.

Auteur : CryptoDep16:10

L’Iran refuse de rouvrir le détroit d’Ormuz, affectant la dynamique du marché UKOIL et la stabilité géopolitique.

Auteur : Nehal15:52