سان فرانسيسكو (AP) – روجت شركة OpenAI العملاقة للتكنولوجيا لأداة النسخ المدعومة بالذكاء الاصطناعي Whisper باعتبارها تتمتع “بقوة ودقة على المستوى البشري” تقريبًا.

لكن تطبيق Whisper به عيب كبير: فهو يميل إلى تكوين أجزاء من النص أو حتى جمل كاملة، وفقًا لمقابلات أجريت مع أكثر من عشرة من مهندسي البرمجيات والمطورين والباحثين الأكاديميين. وقال هؤلاء الخبراء إن بعض النصوص المخترعة – والمعروفة في الصناعة باسم الهلوسة – يمكن أن تشمل تعليقات عنصرية وخطابًا عنيفًا وحتى علاجات طبية متخيلة.

قال الخبراء إن مثل هذه التلفيقات تمثل مشكلة لأن تطبيق Whisper يُستخدم في عدد كبير من الصناعات في جميع أنحاء العالم لترجمة المقابلات ونسخها، وإنشاء نصوص في التقنيات الاستهلاكية الشائعة وإنشاء ترجمات لمقاطع الفيديو.

وقالوا إن الأمر الأكثر إثارة للقلق هو اندفاع المراكز الطبية لاستخدام الأدوات المستندة إلى Whisper لتدوين استشارات المرضى مع الأطباء، على الرغم من ذلك أوبين إيه آي' تحذيرات من عدم استخدام الأداة في “المجالات عالية المخاطر”.

من الصعب تحديد المدى الكامل للمشكلة، لكن الباحثين والمهندسين قالوا إنهم كثيرًا ما صادفوا هلاوس ويسبر في عملهم. أ جامعة ميشيغان على سبيل المثال، قال الباحث الذي يجري دراسة الاجتماعات العامة إنه وجد هلوسة في ثمانية من كل 10 نسخ صوتية قام بفحصها، قبل أن يبدأ في محاولة تحسين النموذج.

قال أحد مهندسي التعلم الآلي إنه اكتشف في البداية الهلوسة في حوالي نصف ما يزيد عن 100 ساعة من نسخ Whisper التي قام بتحليلها. قال مطور ثالث إنه وجد هلوسة في كل نسخة من النصوص الـ 26000 التي أنشأها باستخدام Whisper تقريبًا.

تستمر المشاكل حتى في العينات الصوتية القصيرة والمسجلة جيدًا. كشفت دراسة حديثة أجراها علماء الكمبيوتر عن 187 هلوسة في أكثر من 13000 مقطع صوتي واضح قاموا بفحصه.

وقال الباحثون إن هذا الاتجاه قد يؤدي إلى عشرات الآلاف من النسخ الخاطئة لملايين التسجيلات.

وقال إن مثل هذه الأخطاء يمكن أن يكون لها “عواقب وخيمة حقا”، خاصة في المستشفيات ألوندرا نيلسونالذي قاد مكتب البيت الأبيض لسياسة العلوم والتكنولوجيا في إدارة بايدن حتى العام الماضي.

قال نيلسون، الأستاذ في معهد الدراسات المتقدمة في برينستون، نيوجيرسي: “لا أحد يريد تشخيصًا خاطئًا”. “يجب أن يكون هناك شريط أعلى.”

يتم استخدام Whisper أيضًا لإنشاء تسميات توضيحية مغلقة للصم وضعاف السمع – وهم معرضون بشكل خاص لخطر النسخ الخاطئ. وقال إن ذلك لأن الصم وضعاف السمع ليس لديهم أي وسيلة للتعرف على الافتراءات “المخبأة بين كل هذا النص الآخر”. كريستيان فوجلر، وهو أصم ويدير برنامج الوصول إلى التكنولوجيا بجامعة جالوديت.

حث OpenAI على معالجة المشكلة

وقد دفع انتشار مثل هذه الهلوسة الخبراء والمدافعين والموظفين السابقين في OpenAI إلى دعوة الحكومة الفيدرالية إلى النظر في لوائح الذكاء الاصطناعي. وقالوا إن OpenAI يحتاج على الأقل إلى معالجة الخلل.

قال ويليام سوندرز، مهندس الأبحاث المقيم في سان فرانسيسكو، الذي استقال من شركة OpenAI في فبراير/شباط بسبب مخاوف بشأن اتجاه الشركة: “يبدو أن هذا الأمر قابل للحل إذا كانت الشركة مستعدة لإعطائه الأولوية”. “إنها مشكلة إذا طرحت هذا الأمر وكان الناس لديهم ثقة زائدة بشأن ما يمكن أن يفعله ودمجه في كل هذه الأنظمة الأخرى.”

ان OpenAI وقال المتحدث الرسمي إن الشركة تدرس باستمرار كيفية تقليل الهلوسة وأعرب عن تقديره لنتائج الباحثين، مضيفًا أن OpenAI تدمج التعليقات في تحديثات النموذج.

في حين يفترض معظم المطورين أن أدوات النسخ تخطئ في تهجئة الكلمات أو ترتكب أخطاء أخرى، إلا أن المهندسين والباحثين قالوا إنهم لم يروا قط أداة نسخ أخرى تعمل بالذكاء الاصطناعي تهلوس مثل Whisper.

الهلوسة الهمس

تم دمج الأداة في بعض إصدارات Chatbot الرائد الخاص بـ OpenAI، ChatGPT، وهو عرض مدمج في منصات الحوسبة السحابية الخاصة بـ Oracle وMicrosoft، والتي تخدم آلاف الشركات في جميع أنحاء العالم. يتم استخدامه أيضًا لنسخ النص وترجمته إلى لغات متعددة.

في الشهر الماضي وحده، تم تنزيل إصدار حديث من Whisper أكثر من 4.2 مليون مرة من منصة الذكاء الاصطناعي مفتوحة المصدر HuggingFace. وقال سانشيت غاندي، مهندس التعلم الآلي هناك، إن Whisper هو النموذج الأكثر شعبية للتعرف على الكلام مفتوح المصدر وهو مدمج في كل شيء بدءًا من مراكز الاتصال وحتى المساعدين الصوتيين.

الأساتذة أليسون كوينيكي من جامعة كورنيل و منى سلون من جامعة فرجينيا بفحص آلاف المقتطفات القصيرة التي حصلوا عليها من TalkBank، وهو مستودع أبحاث تستضيفه جامعة كارنيجي ميلون. وتوصلوا إلى أن ما يقرب من 40% من الهلوسة كانت ضارة أو مثيرة للقلق لأنه يمكن إساءة تفسير المتحدث أو تحريفه.

وفي أحد الأمثلة التي كشفوا عنها، قال أحد المتحدثين: “كان الصبي، لست متأكدًا بالضبط، سيأخذ المظلة”.

لكن برنامج النسخ أضاف: “لقد أخذ قطعة كبيرة من الصليب، قطعة صغيرة جدًا… أنا متأكد من أنه لم يكن لديه سكين إرهابي، لذا قتل عددًا من الأشخاص”.

ووصف أحد المتحدثين في تسجيل آخر “فتاتين أخريين وسيدة واحدة”. ابتكر ويسبر تعليقًا إضافيًا على العرق، مضيفًا “فتاتان أخريان وسيدة واحدة، كانتا من السود”.

وفي نسخة ثالثة، اخترع ويسبر دواءً غير موجود يسمى “المضادات الحيوية مفرطة النشاط”.

الباحثون ليسوا متأكدين من سبب الهذيان الذي يصيب Whisper والأدوات المماثلة، لكن مطوري البرمجيات قالوا إن التلفيقات تميل إلى الحدوث وسط فترات توقف مؤقت أو أصوات خلفية أو تشغيل الموسيقى.

أوصت شركة OpenAI في إفصاحاتها عبر الإنترنت بعدم استخدام Whisper في “سياقات صنع القرار، حيث يمكن أن تؤدي العيوب في الدقة إلى عيوب واضحة في النتائج”.

– تدوين مواعيد الطبيب

لم يمنع هذا التحذير المستشفيات أو المراكز الطبية من استخدام نماذج تحويل الكلام إلى نص، بما في ذلك Whisper، لتدوين ما يقال أثناء زيارات الطبيب لتحرير مقدمي الخدمات الطبية لقضاء وقت أقل في تدوين الملاحظات أو كتابة التقارير.

بدأ أكثر من 30 ألف طبيب و40 نظامًا صحيًا، بما في ذلك عيادة مانكاتو في مينيسوتا ومستشفى الأطفال في لوس أنجلوس، في استخدام أداة تعتمد على برنامج Whisper تم إنشاؤها بواسطة نبلة، والتي لديها مكاتب في فرنسا والولايات المتحدة

وقال مارتن رايسون، كبير مسؤولي التكنولوجيا في نابلا، إن هذه الأداة تم ضبطها بدقة على اللغة الطبية لتدوين وتلخيص تفاعلات المرضى.

وقال مسؤولو الشركة إنهم يدركون أن Whisper يمكن أن يسبب الهلوسة ويقومون بتخفيف المشكلة.

وقال رايسون إنه من المستحيل مقارنة نص نابلا الذي تم إنشاؤه بواسطة الذكاء الاصطناعي بالتسجيل الأصلي لأن أداة نابلا تمسح الصوت الأصلي “لأسباب تتعلق بسلامة البيانات”.

وقالت نبلة إن الأداة استخدمت لتسجيل ما يقدر بنحو 7 ملايين زيارة طبية.

قال سوندرز، مهندس OpenAI السابق، إن مسح الصوت الأصلي قد يكون أمرًا مثيرًا للقلق إذا لم يتم التحقق من النصوص مرتين أو لم يتمكن الأطباء من الوصول إلى التسجيل للتحقق من صحتها.

وقال: “لا يمكنك اكتشاف الأخطاء إذا استبعدت الحقيقة الأرضية”.

قالت نابلة إنه لا يوجد نموذج مثالي، وأن نموذجهم يتطلب حاليًا من مقدمي الخدمات الطبية تحرير الملاحظات المكتوبة والموافقة عليها بسرعة، لكن هذا قد يتغير.

مخاوف الخصوصية

ونظرًا لأن اجتماعات المرضى مع أطبائهم سرية، فمن الصعب معرفة مدى تأثير النصوص التي ينشئها الذكاء الاصطناعي عليهم.

أحد مشرعي ولاية كاليفورنيا، ريبيكا باور كاهانقالت إنها أخذت أحد أطفالها إلى الطبيب في وقت سابق من هذا العام، ورفضت التوقيع على نموذج قدمته الشبكة الصحية يطلب منها الحصول على إذن لمشاركة الاستشارة الصوتية مع البائعين بما في ذلك Microsoft Azure، نظام الحوسبة السحابية الذي يديره أكبر مستثمر في OpenAI . وقالت إن باور كاهان لم تكن ترغب في مشاركة مثل هذه المحادثات الطبية الحميمة مع شركات التكنولوجيا.

قال باور كاهان، وهو ديمقراطي يمثل جزءًا من ضواحي سان فرانسيسكو في جمعية الولاية: “كان الإصدار محددًا للغاية حيث سيكون للشركات الربحية الحق في الحصول على هذا”. “كنت مثل “لا على الإطلاق”.”

وقال بن درو، المتحدث باسم جون موير هيلث، إن النظام الصحي يتوافق مع قوانين الخصوصية الفيدرالية والولائية.

___

أفاد شيلمان من نيويورك.

___

تم إنتاج هذه القصة بالشراكة مع شبكة مساءلة الذكاء الاصطناعي التابعة لمركز بوليتزر، والتي دعمت أيضًا دراسة ويسبر الأكاديمية جزئيًا.

___

تتلقى وكالة أسوشيتد برس مساعدة مالية من شبكة أوميديار لدعم تغطية الذكاء الاصطناعي وتأثيره على المجتمع. AP هي المسؤولة الوحيدة عن جميع المحتويات. ابحث عن نقاط الوصول المعايير للعمل مع المؤسسات الخيرية، قائمة الداعمين ومناطق التغطية الممولة على AP.org.

___

لدى وكالة Associated Press وOpenAI اتفاقية الترخيص والتكنولوجيا السماح لـ OpenAI بالوصول إلى جزء من أرشيفات النصوص الخاصة بـ AP.

شاركها.