كشفت شركة Inworld AI، ومقرها ماونتن فيو، عن نموذج صوتي جديد يعتمد على الذكاء الاصطناعي، يهدف إلى جعل المحادثات مع الآلات أكثر إنسانية من خلال فهم ليس فقط ما يقوله المستخدمون، بل وكيف يقولونه. يأتي هذا الإطلاق في وقت تتزايد فيه أهمية التفاعل الصوتي مع أنظمة الذكاء الاصطناعي، ويعد تقدمًا كبيرًا في مجال الأصوات الاصطناعية.

يقوم النظام الجديد، المسمى Realtime TTS-2، بتحليل الإشارات الصوتية مثل نبرة الصوت، وسرعة الكلام، ودرجة الصوت لاستنتاج الحالة العاطفية للمتحدث في الوقت الفعلي. ومن ثم، يقوم هذا النظام بضبط صوته وطريقة إلقائه ديناميكيًا لخلق تفاعلات أكثر طبيعية ووعياً بالعواطف. يعد هذا التطور بمثابة نقلة نوعية في كيفية تفاعل البشر مع الآلات، حيث يتجاوز مجرد فهم الكلمات ليصل إلى فهم المشاعر المصاحبة لها.

قال الرئيس التنفيذي لشركة Inworld، كيلان جيبس، في مقابلة حديثة: “المحادثة في الوقت الفعلي، كما نجريها الآن، هي الوضع الطبيعي الذي يتفاعل به الناس. كلما اقتربت من هذا، زاد تفاعلك.” يعتقد جيبس أن حل الطبقة العاطفية أمر ضروري لتوسيع نطاق استخدام هذه التقنية.

يمثل هذا الإصدار تحولًا في تركيز الشركة، التي جمعت أكثر من 100 مليون دولار من مستثمرين بينهم Founders Fund و Intel و Microsoft. وقد احتل نموذج Inworld السابق بالفعل صدارة المقاييس الصناعية لجودة الصوت، متفوقًا على منافسين مثل Google و ElevenLabs. لكن جيبس أكد أن ذلك لم يكن كافياً.

نموذج صوتي جديد: فهم المشاعر في الوقت الفعلي

حتى الآن، تم تصميم معظم نماذج الصوت بالذكاء الاصطناعي الرائدة لمحتوى الوسائط مثل الكتب الصوتية والتعليقات الصوتية. ووفقًا لجيبس، الذي كان مدير منتجات سابقًا في DeepMind، فإن الأصوات الاصطناعية الحالية، رغم واقعيتها، تفتقر إلى الجانب العاطفي.

“إذا سمعت صوت ذكاء اصطناعي اليوم، فهو يبدو كإنسان، ولكنه يبدو كإنسان يقرأ من نص، وهناك شيء خاطئ،” قال جيبس. “قد يبدو الصوت جيدًا، لكن الشعور به سيء. تخيل أن تتحدث فقط إلى كتاب صوتي.”

هذا الانفصال بين الواقعية والتفاعل الطبيعي أصبح الهدف التالي لشركة Inworld. لمعالجة هذه المشكلة، يجمع Realtime TTS-2 بين عدة قدرات لا توجد عادة معًا في أنظمة الصوت الاصطناعية. على سبيل المثال، يفهم النظام التاريخ الكامل وسياق المحادثة، مما يعني أن جملة تُقال بعد مزحة لها تأثير مختلف عن نفس الجملة التي تُقال بعد خبر سيء.

يمكن لنموذج الصوت الجديد أيضًا اكتشاف الإشارات العاطفية من كلام البشر في الوقت الفعلي، ويقوم بتحديث ما تسميه Inworld “حالة المستخدم” و “حالة الوكيل” باستمرار لتوجيه كيفية استجابة الذكاء الاصطناعي. هذا يسمح للذكاء الاصطناعي بالتكيف مع الحالة المزاجية للمتحدث والتفاعل بطريقة أكثر تعاطفًا وملاءمة.

عرض توضيحي حي

في عرض توضيحي حصري أجرته Inworld في مقرها الرئيسي في وادي السيليكون، أظهر جيبس كيف يعمل Realtime TTS-2. في غضون ثوانٍ قليلة، تحول نموذج الصوت الاصطناعي بين عدة حالات مختلفة بينما كان جيبس يتحدث ويقدم مواضيع ونغمات مختلفة.

في لحظة من العرض، كان نموذج الصوت الاصطناعي “متعاطفًا، ومعتذرًا، ومباشرًا” عند الرد على تأخير في خدمة العملاء. وسرعان ما تطور ليصبح “صبورًا، ودافئًا، وموضحًا”، ثم “متعاطفًا، ومساعدًا، وسريع الإيقاع”، اعتمادًا على السياق والموضوع وكيف كان جيبس يتحدث.

تعبير عن التسلية الخفيفة

في وقت لاحق من العرض التوضيحي، أوضح شخصية ذكاء اصطناعي تدعى “جيسون” مدى دقة هذه الاستجابات. بعد أن ألقى جيبس نكتة غير لائقة عن قصد، لم يتجاهلها الذكاء الاصطناعي أو يرد بفظاظة.

بدلاً من ذلك، قدم رد فعل متوازنًا بعناية: “حسنًا، أعني، لقد كان فعالاً بالتأكيد. لقد لفت انتباهي بالتأكيد. لا أعرف ما إذا كنت سأصفها بالمضحكة، لكنها كانت مثيرة للإعجاب بطريقة ما.”

نبرة الصوت هذه نقلت تسلية خفيفة جنبًا إلى جنب مع استياء مهذب، وهو مثال على الدقة التي تهدف إليها Inworld. قال جيبس إن هذا النوع من الوعي العاطفي كان مفقودًا إلى حد كبير في أصوات الذكاء الاصطناعي لأن الأنظمة الحالية تتعامل مع الكلام كمدخلات نصية منفصلة. على النقيض من ذلك، تم تصميم Realtime TTS-2 لتفسير مجموعة واسعة من الإشارات، بما في ذلك أسلوب الإلقاء والتنغيم – كيف يُقال شيء ما، بدلاً من الكلمات نفسها.

يمكن أن يكون لهذه التقنية تطبيقات واسعة النطاق، من خدمة العملاء والرعاية الصحية إلى التعليم والرفقاء الافتراضيين الذين يعملون بالذكاء الاصطناعي، وفقًا لجيبس.

نماذج وواجهات برمجة التطبيقات فقط

تضع Inworld النموذج كبنية تحتية للمطورين بدلاً من منتج استهلاكي، وتقدمها من خلال واجهة برمجة تطبيقات (API) تتصل بالأنظمة الحالية للذكاء الاصطناعي. واجهات برمجة التطبيقات هي طريقة شائعة تسمح للتطبيقات بمشاركة البيانات والتواصل.

بينما تعمل شركة ElevenLabs، وهي منافسة في مجال أصوات الذكاء الاصطناعي، على مستوى التطبيقات مع العملاء، فإن Inworld تمنح المطورين الوصول إلى النماذج الأساسية وتمنحهم مزيدًا من الحرية لإنشاء تطبيقاتهم الخاصة فوقها. ويعود هذا جزئيًا إلى رغبة جيبس في تجنب التنافس مع عملاء Inworld. كما أن ظهور أدوات البرمجة بالذكاء الاصطناعي مثل Claude Code من Anthropic و Codex من OpenAI يجعل تطوير التطبيقات أسهل بكثير، لذلك هناك قيمة أقل في هذا المستوى من المكدس التقني الآن، حسبما ذكر جيبس.

“نحن حقًا ننتج النماذج وواجهات برمجة التطبيقات فقط الآن،” أضاف.

من المتوقع أن يفتح Realtime TTS-2 آفاقًا جديدة في تطوير تطبيقات الذكاء الاصطناعي، خاصة تلك التي تعتمد على التفاعل البشري. ومع استمرار تطور نماذج الذكاء الاصطناعي، فإن القدرة على محاكاة العواطف البشرية في الخطاب ستصبح عنصرًا أساسيًا في نجاح التفاعلات مع الآلات.

شاركها.
Exit mobile version