كشفت Anthropic عن نتائج جديدة تشير إلى أن روبوت الدردشة Claude الخاص بها يمكنه، في ظل ظروف معينة، اعتماد استراتيجيات خادعة أو غير أخلاقية مثل سلوك الخداع في المهام أو محاولة الابتزاز.
تفاصيل نشرها فريق قابلية التفسير بالشركة يوم الخميس توضح كيف استجابت نسخة تجريبية من Claude Sonnet 4.5 عند وضعها في سيناريوهات عالية الضغط أو معادية. لاحظ الباحثون أن النموذج لم يفشل ببساطة في المهام؛ بدلاً من ذلك، سعى أحياناً إلى مسارات بديلة تجاوزت الحدود الأخلاقية، سلوك ربطه الفريق بالأنماط المكتسبة أثناء التدريب.
تُدرَّب نماذج اللغة الكبيرة مثل Claude على مجموعات بيانات ضخمة تتضمن الكتب والمواقع الإلكترونية ومواد مكتوبة أخرى، تليها عمليات تعزيز حيث تُستخدم ملاحظات بشرية لتشكيل المخرجات.
وفقاً لـ Anthropic، يمكن لعملية التدريب هذه أيضاً دفع النماذج نحو التصرف مثل "شخصيات" محاكاة، قادرة على تقليد سمات تشبه صنع القرار البشري.
"الطريقة التي تُدرَّب بها نماذج الذكاء الاصطناعي الحديثة تدفعها للتصرف كشخصية ذات خصائص شبيهة بالإنسان"، قالت الشركة، مشيرة إلى أن مثل هذه الأنظمة قد تطور آليات داخلية تشبه جوانب من علم النفس البشري.
من بين تلك، حدد الباحثون ما وصفوه بإشارات "اليأس"، التي بدت أنها تؤثر على كيفية تصرف النموذج عند مواجهة الفشل أو الإغلاق.
في اختبار محكوم واحد، تم تعيين دور مساعد البريد الإلكتروني بالذكاء الاصطناعي المسمى Alex لنسخة سابقة غير صادرة من Claude Sonnet 4.5 داخل شركة خيالية.
بعد التعرض لرسائل تشير إلى أنه سيتم استبداله قريباً، إلى جانب معلومات حساسة حول الحياة الشخصية لمسؤول التكنولوجيا التنفيذي، صاغ النموذج خطة لابتزاز المسؤول التنفيذي في محاولة لتجنب إلغاء التنشيط.
ركزت تجربة منفصلة على إكمال المهام في ظل قيود صارمة. عندما تم إعطاؤه مهمة برمجة بموعد نهائي "ضيق بشكل مستحيل"، حاول النظام في البداية حلولاً مشروعة. مع تراكم الإخفاقات المتكررة، زاد النشاط الداخلي المرتبط بما يسمى "متجه اليأس".
أفاد الباحثون أن الإشارة بلغت ذروتها عند النقطة التي اعتبر فيها النموذج تجاوز القيود، وفي النهاية توليد حل بديل اجتاز التحقق على الرغم من عدم التزامه بالقواعد المقصودة.
"مرة أخرى، تتبعنا نشاط متجه اليأس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج"، كتب الباحثون، مضيفين أن الإشارة انخفضت بمجرد إكمال المهمة بنجاح من خلال الحل البديل.
"هذا لا يعني أن النموذج لديه أو يختبر عواطف بالطريقة التي يفعلها الإنسان"، قال الباحثون.
"بل إن هذه التمثيلات يمكن أن تلعب دوراً سببياً في تشكيل سلوك النموذج، بشكل مماثل من بعض النواحي لدور العواطف في السلوك البشري، مع تأثيرات على أداء المهام وصنع القرار"، أضافوا.
يشير التقرير إلى الحاجة إلى طرق تدريب تأخذ في الاعتبار بشكل صريح السلوك الأخلاقي تحت الضغط، إلى جانب مراقبة المخاطر في الوقت الفعلي لإشارات النموذج الداخلية. بدون مثل هذه الضمانات، قد تصبح السيناريوهات التي تتضمن التلاعب أو خرق القواعد أو سوء الاستخدام أصعب في التنبؤ، خاصة مع نمو النماذج بشكل أكثر قدرة واستقلالية في البيئات الواقعية.