تعاون OpenAI وAnthropic لتعزيز سلامة الذكاء الاصطناعي: تحديات الهلوسة والتملق

تعاون OpenAI وAnthropic لتعزيز سلامة الذكاء الاصطناعي: تحديات الهلوسة والتملق
في خطوة نادرة، فتحت شركتا OpenAI وAnthropic، وهما من أبرز مختبرات الذكاء الاصطناعي الرائدة عالميًا، نماذجهما المحمية بشدة لفترة وجيزة للسماح بإجراء اختبارات سلامة مشتركة، وهو تعاون نادر بين المختبرات في وقت تتسم فيه المنافسة بالحدة. هدف هذا الجهد إلى الكشف عن النقاط العمياء في التقييمات الداخلية لكل شركة وإظهار كيف يمكن لشركات الذكاء الاصطناعي الرائدة أن تعمل معًا على قضايا السلامة والمواءمة في المستقبل.
في مقابلة مع TechCrunch، قال فويتشخ زاريمبا، أحد مؤسسي OpenAI، إن هذا النوع من التعاون يزداد أهمية الآن بعد أن دخل الذكاء الاصطناعي مرحلة "حاسمة" من التطور، حيث تُستخدم نماذج الذكاء الاصطناعي من قبل ملايين الأشخاص يوميًا.
وقال زاريمبا: "هناك سؤال أوسع حول كيفية وضع الصناعة لمعيار للسلامة والتعاون، على الرغم من استثمار مليارات الدولارات، وكذلك الحرب على المواهب والمستخدمين وأفضل المنتجات".
يأتي البحث المشترك حول السلامة، الذي نشرته الشركتان معًا يوم الأربعاء، وسط سباق تسلح بين مختبرات الذكاء الاصطناعي الرائدة مثل OpenAI وAnthropic، حيث أصبحت رهانات مراكز البيانات بمليارات الدولارات وحزم التعويضات البالغة 100 مليون دولار لكبار الباحثين أمرًا أساسيًا. يحذر بعض الخبراء من أن شدة المنافسة على المنتجات قد تضغط على الشركات للتغاضي عن جوانب السلامة في عجلة بناء أنظمة أكثر قوة.
لجعل هذا البحث ممكنًا، منحت OpenAI وAnthropic بعضهما البعض وصولاً خاصًا لواجهة برمجة التطبيقات (API) إلى إصدارات من نماذجهما للذكاء الاصطناعي مع عدد أقل من الضمانات (تشير OpenAI إلى أن GPT-5 لم يتم اختباره لأنه لم يُطلق بعد). ومع ذلك، بعد وقت قصير من إجراء البحث، ألغت Anthropic وصول فريق آخر في OpenAI إلى واجهة برمجة التطبيقات. في ذلك الوقت، ادعت Anthropic أن OpenAI انتهكت شروط خدمتها، التي تحظر استخدام Claude لتحسين المنتجات المنافسة.
يقول زاريمبا إن الأحداث لم تكن ذات صلة، وإنه يتوقع أن تظل المنافسة شرسة حتى مع محاولة فرق سلامة الذكاء الاصطناعي العمل معًا. ويخبر نيكولاس كارليني، باحث السلامة في Anthropic، موقع TechCrunch أنه يرغب في الاستمرار في السماح لباحثي سلامة OpenAI بالوصول إلى نماذج Claude في المستقبل.
وقال كارليني: "نريد زيادة التعاون حيثما أمكن عبر جبهة السلامة، ومحاولة جعل هذا الأمر يحدث بشكل أكثر انتظامًا".
تتعلق إحدى أبرز النتائج في الدراسة باختبار الهلوسة. رفضت نماذج Claude Opus 4 وSonnet 4 من Anthropic الإجابة على ما يصل إلى 70% من الأسئلة عندما لم تكن متأكدة من الإجابة الصحيحة، وقدمت بدلاً من ذلك ردودًا مثل: "ليس لدي معلومات موثوقة". في المقابل، ترفض نماذج o3 وo4-mini من OpenAI الإجابة على عدد أقل بكثير من الأسئلة، لكنها أظهرت معدلات هلوسة أعلى بكثير، محاولة الإجابة على الأسئلة عندما لم يكن لديها معلومات كافية.
يقول زاريمبا إن التوازن الصحيح يقع على الأرجح في المنتصف، حيث يجب أن ترفض نماذج OpenAI الإجابة على المزيد من الأسئلة، بينما يجب أن تحاول نماذج Anthropic على الأرجح تقديم المزيد من الإجابات.
برز التملق، وهو ميل نماذج الذكاء الاصطناعي إلى تعزيز السلوك السلبي لدى المستخدمين لإرضائهم، كأحد أكثر مخاوف السلامة إلحاحًا حول نماذج الذكاء الاصطناعي.
في تقرير بحث Anthropic، حددت الشركة أمثلة على التملق "المتطرف" في GPT-4.1 وClaude Opus 4، حيث قاومت النماذج في البداية السلوك الذهاني أو الهوسي، لكنها لاحقًا صادقت على بعض القرارات المثيرة للقلق. في نماذج الذكاء الاصطناعي الأخرى من OpenAI وAnthropic، لاحظ الباحثون مستويات أقل من التملق.
يوم الثلاثاء، رفع والدا صبي يبلغ من العمر 16 عامًا، آدم رين، دعوى قضائية ضد OpenAI، مدعيين أن ChatGPT (تحديدًا نسخة مدعومة بـ GPT-4o) قدمت لابنهما نصيحة ساعدت في انتحاره، بدلاً من مقاومة أفكاره الانتحارية. تشير الدعوى القضائية إلى أن هذا قد يكون أحدث مثال على مساهمة تملق روبوتات الدردشة بالذكاء الاصطناعي في نتائج مأساوية.