سان فرانسيسكو – روجت شركة OpenAI العملاقة للتكنولوجيا لأداة النسخ المدعومة بالذكاء الاصطناعي Whisper باعتبارها تتمتع “بقوة ودقة على المستوى البشري”.
لكن لدى Whisper عيبًا كبيرًا: فهو يميل إلى تكوين أجزاء من النص أو حتى جمل كاملة، وفقًا لمقابلات أجريت مع أكثر من عشرة من مهندسي البرمجيات والمطورين والباحثين الأكاديميين. وقال هؤلاء الخبراء إن بعض النصوص المخترعة – والمعروفة في الصناعة باسم الهلوسة – يمكن أن تشمل تعليقات عنصرية وخطابًا عنيفًا وحتى علاجات طبية متخيلة.
قال الخبراء إن مثل هذه التلفيقات تمثل مشكلة لأن تطبيق Whisper يُستخدم في عدد كبير من الصناعات في جميع أنحاء العالم لترجمة المقابلات ونسخها، وإنشاء نصوص في التقنيات الاستهلاكية الشائعة وإنشاء ترجمات لمقاطع الفيديو.
وقالوا إن الأمر الأكثر إثارة للقلق هو اندفاع المراكز الطبية لاستخدام الأدوات المستندة إلى برنامج Whisper لتسجيل استشارات المرضى مع الأطباء، على الرغم من تحذيرات OpenAI من عدم استخدام الأداة في “المجالات عالية المخاطر”.
من الصعب تحديد المدى الكامل للمشكلة، لكن الباحثين والمهندسين قالوا إنهم كثيرًا ما صادفوا هلاوس ويسبر في عملهم. على سبيل المثال، قال أحد الباحثين في جامعة ميشيغان، الذي أجرى دراسة عن الاجتماعات العامة، إنه وجد هلوسة في ثمانية من كل 10 نسخ صوتية قام بفحصها، قبل أن يبدأ في محاولة تحسين النموذج.
قال أحد مهندسي التعلم الآلي إنه اكتشف في البداية الهلوسة في حوالي نصف ما يزيد عن 100 ساعة من نسخ Whisper التي قام بتحليلها. قال مطور ثالث إنه وجد هلوسة في كل نسخة من النصوص الـ 26000 التي أنشأها باستخدام Whisper تقريبًا.
تستمر المشاكل حتى في العينات الصوتية القصيرة والمسجلة جيدًا. كشفت دراسة حديثة أجراها علماء الكمبيوتر عن 187 هلوسة في أكثر من 13000 مقطع صوتي واضح قاموا بفحصه.
وقال الباحثون إن هذا الاتجاه قد يؤدي إلى عشرات الآلاف من النسخ الخاطئة لملايين التسجيلات.
وقالت ألوندرا نيلسون، التي قادت مكتب البيت الأبيض لسياسة العلوم والتكنولوجيا في إدارة بايدن حتى العام الماضي، إن مثل هذه الأخطاء يمكن أن يكون لها “عواقب وخيمة حقًا”، خاصة في المستشفيات.
قال نيلسون، الأستاذ في معهد الدراسات المتقدمة في برينستون، نيوجيرسي: “لا أحد يريد تشخيصًا خاطئًا”. “يجب أن يكون هناك شريط أعلى.”
يتم استخدام Whisper أيضًا لإنشاء تسميات توضيحية مغلقة للصم وضعاف السمع – وهم معرضون بشكل خاص لخطر النسخ الخاطئ. وقال كريستيان فوجلر، وهو أصم ويدير برنامج الوصول إلى التكنولوجيا بجامعة جالوديت، إن ذلك لأن الصم وضعاف السمع ليس لديهم طريقة للتعرف على الافتراءات “المخبأة بين كل هذه النصوص الأخرى”.
أدى انتشار مثل هذه الهلوسة إلى دفع الخبراء والمدافعين والموظفين السابقين في OpenAI إلى دعوة الحكومة الفيدرالية إلى النظر في لوائح الذكاء الاصطناعي. وقالوا إن OpenAI يحتاج على الأقل إلى معالجة الخلل.
قال ويليام سوندرز، مهندس الأبحاث المقيم في سان فرانسيسكو، والذي استقال من شركة OpenAI في شهر فبراير الماضي بسبب مخاوف تتعلق بتوجيهات الشركة: “يبدو أن هذا الأمر قابل للحل إذا كانت الشركة على استعداد لإعطائه الأولوية”. “إنها مشكلة إذا طرحت هذا الأمر وكان الناس لديهم ثقة زائدة بشأن ما يمكن أن يفعله ودمجه في كل هذه الأنظمة الأخرى.”
وقال متحدث باسم OpenAI إن الشركة تدرس باستمرار كيفية تقليل الهلوسة وأعرب عن تقديره لنتائج الباحثين، مضيفًا أن OpenAI تدمج التعليقات في تحديثات النموذج.
في حين يفترض معظم المطورين أن أدوات النسخ تخطئ في تهجئة الكلمات أو ترتكب أخطاء أخرى، قال المهندسون والباحثون إنهم لم يروا قط أداة نسخ أخرى تعمل بالذكاء الاصطناعي تهلوس بقدر ما تفعله Whisper.
تم دمج الأداة في بعض إصدارات Chatbot الرائد الخاص بـ OpenAI، ChatGPT، وهو عرض مدمج في منصات الحوسبة السحابية الخاصة بـ Oracle وMicrosoft، والتي تخدم آلاف الشركات في جميع أنحاء العالم. يتم استخدامه أيضًا لنسخ النص وترجمته إلى لغات متعددة.
في الشهر الماضي وحده، تم تنزيل إصدار حديث من Whisper أكثر من 4.2 مليون مرة من منصة الذكاء الاصطناعي مفتوحة المصدر HuggingFace. وقال سانشيت غاندي، مهندس التعلم الآلي هناك، إن Whisper هو النموذج الأكثر شعبية للتعرف على الكلام مفتوح المصدر وهو مدمج في كل شيء بدءًا من مراكز الاتصال وحتى المساعدين الصوتيين.
قام البروفيسور أليسون كوينكي من جامعة كورنيل ومنى سلون من جامعة فيرجينيا بفحص آلاف المقتطفات القصيرة التي حصلوا عليها من TalkBank، وهو مستودع أبحاث تستضيفه جامعة كارنيجي ميلون. وتوصلوا إلى أن ما يقرب من 40% من الهلوسة كانت ضارة أو مثيرة للقلق لأنه يمكن إساءة تفسير المتحدث أو تحريفه.
وفي أحد الأمثلة التي كشفوا عنها، قال أحد المتحدثين: “كان الصبي، لست متأكدًا بالضبط، سيأخذ المظلة”.
لكن برنامج النسخ أضاف: “لقد أخذ قطعة كبيرة من الصليب، قطعة صغيرة جدًا… أنا متأكد من أنه لم يكن لديه سكين إرهابي، لذا قتل عددًا من الأشخاص”.
ووصف أحد المتحدثين في تسجيل آخر “فتاتين أخريين وسيدة واحدة”. ابتكر ويسبر تعليقًا إضافيًا على العرق، مضيفًا “فتاتان أخريان وسيدة واحدة، كانتا من السود”.
وفي نسخة ثالثة، اخترع ويسبر دواءً غير موجود يسمى “المضادات الحيوية مفرطة النشاط”.
الباحثون ليسوا متأكدين من سبب الهذيان الذي يصيب Whisper والأدوات المماثلة، لكن مطوري البرمجيات قالوا إن التلفيقات تميل إلى الحدوث وسط فترات توقف مؤقت أو أصوات في الخلفية أو تشغيل الموسيقى.
أوصت شركة OpenAI في إفصاحاتها عبر الإنترنت بعدم استخدام Whisper في “سياقات صنع القرار، حيث يمكن أن تؤدي العيوب في الدقة إلى عيوب واضحة في النتائج”.
لم يمنع هذا التحذير المستشفيات أو المراكز الطبية من استخدام نماذج تحويل الكلام إلى نص، بما في ذلك Whisper، لتدوين ما يقال أثناء زيارات الطبيب لتحرير مقدمي الخدمات الطبية لقضاء وقت أقل في تدوين الملاحظات أو كتابة التقارير.
بدأ أكثر من 30 ألف طبيب و40 نظامًا صحيًا، بما في ذلك عيادة مانكاتو في مينيسوتا ومستشفى الأطفال في لوس أنجلوس، في استخدام أداة تعتمد على نظام Whisper الذي صممته شركة Nabla، التي لديها مكاتب في فرنسا والولايات المتحدة.
وقال مارتن رايسون، كبير مسؤولي التكنولوجيا في نابلا، إن هذه الأداة تم ضبطها بدقة على اللغة الطبية لتدوين وتلخيص تفاعلات المرضى.
وقال مسؤولو الشركة إنهم يدركون أن Whisper يمكن أن يسبب الهلوسة ويقومون بتخفيف المشكلة.
وقال رايسون إنه من المستحيل مقارنة نص نابلا الذي تم إنشاؤه بواسطة الذكاء الاصطناعي بالتسجيل الأصلي لأن أداة نابلا تمسح الصوت الأصلي “لأسباب تتعلق بسلامة البيانات”.
وقالت نبلة إن الأداة استخدمت لتسجيل ما يقدر بنحو 7 ملايين زيارة طبية.
قال سوندرز، مهندس OpenAI السابق، إن مسح الصوت الأصلي قد يكون أمرًا مثيرًا للقلق إذا لم يتم التحقق من النصوص مرتين أو لم يتمكن الأطباء من الوصول إلى التسجيل للتحقق من صحتها.
وقال: “لا يمكنك اكتشاف الأخطاء إذا استبعدت الحقيقة الأرضية”.
قالت نابلة إنه لا يوجد نموذج مثالي، وأن نموذجهم يتطلب حاليًا من مقدمي الخدمات الطبية تحرير الملاحظات المكتوبة والموافقة عليها بسرعة، لكن هذا قد يتغير.
ونظرًا لأن اجتماعات المرضى مع أطبائهم سرية، فمن الصعب معرفة مدى تأثير النصوص التي ينشئها الذكاء الاصطناعي عليهم.
قالت النائبة عن ولاية كاليفورنيا، ريبيكا باور كاهان، إنها أخذت أحد أطفالها إلى الطبيب في وقت سابق من هذا العام، ورفضت التوقيع على نموذج قدمته الشبكة الصحية يطلب منها الحصول على إذن لمشاركة الاستشارة الصوتية مع البائعين بما في ذلك Microsoft Azure، نظام الحوسبة السحابية الذي يديره أكبر مستثمر في OpenAI. وقالت إن باور كاهان لم تكن ترغب في مشاركة مثل هذه المحادثات الطبية الحميمة مع شركات التكنولوجيا.
قال باور كاهان، وهو ديمقراطي يمثل جزءًا من ضواحي سان فرانسيسكو في جمعية الولاية: “كان الإصدار محددًا للغاية بحيث سيكون للشركات الربحية الحق في الحصول على هذا”. “كنت مثل “لا على الإطلاق”.”
وقال بن درو، المتحدث باسم جون موير هيلث، إن النظام الصحي يتوافق مع قوانين الخصوصية الفيدرالية والولائية.
___
أفاد شيلمان من نيويورك.
___
تم إنتاج هذه القصة بالشراكة مع شبكة مساءلة الذكاء الاصطناعي التابعة لمركز بوليتزر، والتي دعمت أيضًا دراسة ويسبر الأكاديمية جزئيًا.
___
تتلقى وكالة أسوشيتد برس مساعدة مالية من شبكة أوميديار لدعم تغطية الذكاء الاصطناعي وتأثيره على المجتمع. AP هي المسؤولة الوحيدة عن جميع المحتويات. ابحث عن معايير AP للعمل مع المؤسسات الخيرية، وقائمة الداعمين ومناطق التغطية الممولة على AP.org.
___
لدى وكالة Associated Press وOpenAI اتفاقية ترخيص وتكنولوجيا تسمح لـ OpenAI بالوصول إلى جزء من أرشيفات النصوص الخاصة بوكالة AP.