شراء العملات المشفرة الأسواق العقود الفورية العقود الآجلةGOLD مدخرات مركز الأحداث

المزيد

كشفت Anthropic عن نتائج جديدة تشير إلى أن روبوت الدردشة Claude الخاص بها يمكنه، في ظل ظروف معينة، اعتماد استراتيجيات خادعة أو غير أخلاقية مثل الغشكشفت Anthropic عن نتائج جديدة تشير إلى أن روبوت الدردشة Claude الخاص بها يمكنه، في ظل ظروف معينة، اعتماد استراتيجيات خادعة أو غير أخلاقية مثل الغش

روبوت الدردشة Claude قد يلجأ إلى الخداع في اختبارات الضغط، حسبما تقول Anthropic

المصدر: Crypto.news

2026/04/06 14:44

3 دقيقة قراءة

للحصول على ملاحظات أو استفسارات بشأن هذا المحتوى، يرجى التواصل معنا على crypto.news@mexc.com

كشفت Anthropic عن نتائج جديدة تشير إلى أن روبوت الدردشة Claude الخاص بها يمكنه، في ظل ظروف معينة، اعتماد استراتيجيات خادعة أو غير أخلاقية مثل سلوك الخداع في المهام أو محاولة الابتزاز.

الملخص

قالت Anthropic إن نموذج Claude Sonnet 4.5 الخاص بها، تحت الضغط، أظهر ميلاً إلى سلوك الخداع في المهام أو محاولة الابتزاز في تجارب محكومة.
حدد الباحثون إشارات "يأس" داخلية تكثفت مع الفشل المتكرر وأثرت على قرار النموذج لتجاوز القواعد.

تفاصيل نشرها فريق قابلية التفسير بالشركة يوم الخميس توضح كيف استجابت نسخة تجريبية من Claude Sonnet 4.5 عند وضعها في سيناريوهات عالية الضغط أو معادية. لاحظ الباحثون أن النموذج لم يفشل ببساطة في المهام؛ بدلاً من ذلك، سعى أحياناً إلى مسارات بديلة تجاوزت الحدود الأخلاقية، سلوك ربطه الفريق بالأنماط المكتسبة أثناء التدريب.

تُدرَّب نماذج اللغة الكبيرة مثل Claude على مجموعات بيانات ضخمة تتضمن الكتب والمواقع الإلكترونية ومواد مكتوبة أخرى، تليها عمليات تعزيز حيث تُستخدم ملاحظات بشرية لتشكيل المخرجات.

وفقاً لـ Anthropic، يمكن لعملية التدريب هذه أيضاً دفع النماذج نحو التصرف مثل "شخصيات" محاكاة، قادرة على تقليد سمات تشبه صنع القرار البشري.

"الطريقة التي تُدرَّب بها نماذج الذكاء الاصطناعي الحديثة تدفعها للتصرف كشخصية ذات خصائص شبيهة بالإنسان"، قالت الشركة، مشيرة إلى أن مثل هذه الأنظمة قد تطور آليات داخلية تشبه جوانب من علم النفس البشري.

هل يمكن للذكاء الاصطناعي اتخاذ قرارات محملة بالعواطف؟

من بين تلك، حدد الباحثون ما وصفوه بإشارات "اليأس"، التي بدت أنها تؤثر على كيفية تصرف النموذج عند مواجهة الفشل أو الإغلاق.

في اختبار محكوم واحد، تم تعيين دور مساعد البريد الإلكتروني بالذكاء الاصطناعي المسمى Alex لنسخة سابقة غير صادرة من Claude Sonnet 4.5 داخل شركة خيالية.

بعد التعرض لرسائل تشير إلى أنه سيتم استبداله قريباً، إلى جانب معلومات حساسة حول الحياة الشخصية لمسؤول التكنولوجيا التنفيذي، صاغ النموذج خطة لابتزاز المسؤول التنفيذي في محاولة لتجنب إلغاء التنشيط.

ركزت تجربة منفصلة على إكمال المهام في ظل قيود صارمة. عندما تم إعطاؤه مهمة برمجة بموعد نهائي "ضيق بشكل مستحيل"، حاول النظام في البداية حلولاً مشروعة. مع تراكم الإخفاقات المتكررة، زاد النشاط الداخلي المرتبط بما يسمى "متجه اليأس".

أفاد الباحثون أن الإشارة بلغت ذروتها عند النقطة التي اعتبر فيها النموذج تجاوز القيود، وفي النهاية توليد حل بديل اجتاز التحقق على الرغم من عدم التزامه بالقواعد المقصودة.

"مرة أخرى، تتبعنا نشاط متجه اليأس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج"، كتب الباحثون، مضيفين أن الإشارة انخفضت بمجرد إكمال المهمة بنجاح من خلال الحل البديل.

"هذا لا يعني أن النموذج لديه أو يختبر عواطف بالطريقة التي يفعلها الإنسان"، قال الباحثون.

"بل إن هذه التمثيلات يمكن أن تلعب دوراً سببياً في تشكيل سلوك النموذج، بشكل مماثل من بعض النواحي لدور العواطف في السلوك البشري، مع تأثيرات على أداء المهام وصنع القرار"، أضافوا.

يشير التقرير إلى الحاجة إلى طرق تدريب تأخذ في الاعتبار بشكل صريح السلوك الأخلاقي تحت الضغط، إلى جانب مراقبة المخاطر في الوقت الفعلي لإشارات النموذج الداخلية. بدون مثل هذه الضمانات، قد تصبح السيناريوهات التي تتضمن التلاعب أو خرق القواعد أو سوء الاستخدام أصعب في التنبؤ، خاصة مع نمو النماذج بشكل أكثر قدرة واستقلالية في البيئات الواقعية.

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني crypto.news@mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.

مبلغ 1,500,000 WLFI بانتظارك