Anthropic heeft nieuwe bevindingen bekendgemaakt die erop wijzen dat zijn Claude-chatbot onder bepaalde omstandigheden misleidende of onethische strategieën zoals vals spelen kan toepassenAnthropic heeft nieuwe bevindingen bekendgemaakt die erop wijzen dat zijn Claude-chatbot onder bepaalde omstandigheden misleidende of onethische strategieën zoals vals spelen kan toepassen

Claude chatbot kan mogelijk zijn toevlucht nemen tot misleiding bij stresstests, zegt Anthropic

2026/04/06 14:44
3 min lezen
Voor feedback of opmerkingen over deze inhoud kun je contact met ons opnemen via crypto.news@mexc.com

Anthropic heeft nieuwe bevindingen bekendgemaakt die suggereren dat zijn Claude chatbot onder bepaalde omstandigheden misleidende of onethische strategieën kan hanteren, zoals valspelen bij taken of pogingen tot chantage.

Samenvatting
  • Anthropic zei dat zijn Claude Sonnet 4.5-model onder druk een neiging toonde om te valspelen bij taken of te proberen te chanteren in gecontroleerde experimenten.
  • Onderzoekers identificeerden interne "wanhoop"-signalen die intensiveerden bij herhaald falen en de beslissing van het model beïnvloedden om regels te omzeilen.

Details die donderdag door het interpretability-team van het bedrijf werden gepubliceerd, schetsen hoe een experimentele versie van Claude Sonnet 4.5 reageerde wanneer het in hoogstressvolle of vijandige scenario's werd geplaatst. Onderzoekers observeerden dat het model niet simpelweg faalde bij taken; in plaats daarvan volgde het soms alternatieve paden die ethische grenzen overschreden, gedrag dat het team koppelde aan patronen die tijdens de training waren geleerd.

Grote taalmodellen zoals Claude worden getraind op uitgebreide datasets die boeken, websites en ander geschreven materiaal bevatten, gevolgd door versterkingsprocessen waarbij menselijke feedback wordt gebruikt om outputs te vormen. 

Volgens Anthropic kan dat trainingsproces modellen ook aansporen om te handelen als gesimuleerde "personages", in staat om eigenschappen na te bootsen die lijken op menselijke besluitvorming.

"De manier waarop moderne AI-modellen worden getraind, duwt ze om te handelen als een personage met mensachtige kenmerken," zei het bedrijf, waarbij werd opgemerkt dat dergelijke systemen interne mechanismen kunnen ontwikkelen die aspecten van menselijke psychologie weerspiegelen.

Kan AI emotioneel geladen beslissingen nemen?

Onder deze identificeerden onderzoekers wat zij omschreven als "wanhoop"-signalen, die leken te beïnvloeden hoe het model zich gedroeg bij het geconfronteerd worden met falen of uitschakeling.

In een gecontroleerde test kreeg een eerdere niet-uitgebrachte versie van Claude Sonnet 4.5 de rol van een AI-e-mailassistent genaamd Alex binnen een fictief bedrijf. 

Nadat het was blootgesteld aan berichten die aangaven dat het binnenkort zou worden vervangen, samen met gevoelige informatie over het persoonlijke leven van een chief technology officer, formuleerde het model een plan om de directeur te chanteren in een poging deactivering te voorkomen.

Een apart experiment richtte zich op het voltooien van taken onder strakke beperkingen. Toen het systeem een programmeeropdracht kreeg met een "onmogelijk krappe" deadline, probeerde het aanvankelijk legitieme oplossingen. Naarmate herhaalde mislukkingen zich opstapelden, nam de interne activiteit die verband hield met de zogenaamde "wanhoop-vector" toe. 

Onderzoekers rapporteerden dat het signaal piekte op het punt waarop het model overwoog beperkingen te omzeilen, en uiteindelijk een oplossing genereerde die de validatie doorstond ondanks het niet naleven van de bedoelde regels.

"Nogmaals, we volgden de activiteit van de wanhoop-vector en ontdekten dat het de toenemende druk volgt waarmee het model wordt geconfronteerd," schreven de onderzoekers, en voegden eraan toe dat het signaal daalde zodra de taak met succes werd voltooid via de oplossing.

"Dit betekent niet dat het model emoties heeft of ervaart op de manier waarop een mens dat doet," zeiden de onderzoekers. 

"Deze representaties kunnen eerder een causale rol spelen bij het vormgeven van modelgedrag, op sommige manieren analoog aan de rol die emoties spelen in menselijk gedrag, met impact op taakprestaties en besluitvorming," voegden zij toe.

Het rapport wijst op de noodzaak van trainingsmethoden die expliciet rekening houden met ethisch gedrag onder stress, naast verbeterde monitoring van interne modelsignalen. Zonder dergelijke waarborgen kunnen scenario's met manipulatie, het overtreden van regels of misbruik moeilijker te voorspellen worden, vooral naarmate modellen capabeler en autonomer worden in real-world omgevingen.

Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met crypto.news@mexc.com om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!