• جمعت الشركات الناشئة للذكاء الاصطناعي الصوتي أكثر من 398 مليون دولار من تمويل رأس المال الاستثماري في عام 2024، وفقًا لبيانات PitchBook.
  • تتوسع التكنولوجيا لتشمل استخدامات المؤسسات مثل خدمة العملاء والمساعدين.
  • تحدثت BI إلى المستثمرين حول الفرص غير المستغلة في مجال الذكاء الاصطناعي الصوتي الناشئ.

أصبح الصوت سريعًا ساحة معركة الذكاء الاصطناعي الجديدة.

من المساعدين الافتراضيين إلى أدوات تركيب الكلام، انطلقت هذه التكنولوجيا في العام الماضي.

على الرغم من أن تقنية الذكاء الاصطناعي الصوتية ليست جديدة، إلا أن الأدوات أصبحت أكثر تطوراً بسرعة، مما أدى إلى اعتمادها من مركز الاتصال إلى وكالات التوظيف.

حالات استخدامه واسعة، بدءًا من النسخ الصوتي في الوقت الفعلي وحتى إنشاء أصوات اصطناعية من المطالبات النصية.

قام المستثمرون الذين يبحثون عن الفرصة التالية في سوق الذكاء الاصطناعي شديد التنافسية بإلقاء دفاتر شيكاتهم خلف الشركات الناشئة. وفقًا لبيانات PitchBook، جمعت الشركات الناشئة التي تعمل على تطوير تقنية الذكاء الاصطناعي الصوتي أكثر من 398 مليون دولار من تمويل رأس المال الاستثماري في عام 2024.

حصلت شركة PolyAI، ومقرها لندن، والتي طورت مساعدين صوتيين لمراكز الاتصال، على 50 مليون دولار في جولة تمويل من شركة Hedosophia. جمعت شركة ElevenLabs، التي يقع مقرها الرئيسي في لندن ونيويورك، والتي طورت تقنية استنساخ الصوت، 100 مليون دولار في يناير 2024 – ويقال إنها ستجمع 200 مليون دولار أخرى، حسبما أفاد موقع Business Insider لأول مرة.

وقال سيفيش سوكومار، المستثمر في شركة VC Balderton: “لقد أدت الإنجازات الحديثة في معالجة الكلام إلى كلام في الوقت الفعلي إلى فتح حالات استخدام جديدة، بما في ذلك المساعدين الافتراضيين، ودعم العملاء، والإنتاجية القائمة على الصوت”. “إن شركات مثل ElevenLabs وOpenAI هي في طليعة هذا المجال، حيث تطلق ElevenLabs واجهة برمجة تطبيقات في الوقت الفعلي من المتوقع أن تؤدي إلى مزيد من الاعتماد.”

وأضاف سوكومار أن الذكاء الاصطناعي الصوتي هو مجال ناشئ نسبيًا، لذلك لا يوجد شاغل لهذا المنصب حتى الآن – ولكنه يثير حماس المستثمرين للفرص غير المستغلة في هذا القطاع.

نظام بيئي متوسع

تتعرف الشركات الناشئة بسرعة على كيفية تخصيص التكنولوجيا الصوتية لمجموعة كبيرة من احتياجات المؤسسات والمستهلكين. وبما أن الذكاء الاصطناعي الوكيل هو موضوع ساخن بالنسبة للرؤساء التنفيذيين، فإن تداخله مع التكنولوجيا الصوتية يمكن أن يحمل إمكانات عالية.

قامت شركة PlayAI، وهي شركة ناشئة تعمل على تطوير منصة ذكاء اصطناعي لنماذج تحويل النص إلى كلام ووكلاء صوت الذكاء الاصطناعي، بجمع 21 مليون دولار من التمويل الأولي في نوفمبر.

وقال حماد سيد، أحد مؤسسي شركة PlayAI: “لقد شهدنا زيادة هائلة في الاهتمام ببناء عملاء صوتيين، حيث يمكن للإنسان التحدث إليه كما لو كان إنسانًا آخر”. وأضاف: “إن الذكاء الاصطناعي الصوتي أصبح سائدًا وسيكون بمثابة واجهة رئيسية في كيفية تفاعل الناس مع التكنولوجيا. ومن المؤكد أن المستثمرين يدركون هذه الفرصة”.

قال ستيف جانج، المؤسس والشريك الإداري في Kindred Ventures، التي تدعم أيضًا PlayAI، إن شركات رأس المال الاستثماري التي تجوب النظام البيئي للقيام برهانها الكبير التالي، تنظر الآن إلى الذكاء الاصطناعي الصوتي باعتباره مجموعة من التكنولوجيا. تتمثل الأطروحة الاستثمارية للشركة في دعم الشركات الناشئة “بطبقات متعددة مع العديد من حالات الاستخدام في المستهلك والمؤسسات والإبداع”.

وقال لـ BI: “أولاً، هناك نماذج متخصصة وتأسيسية. وثانيًا، هناك خدمات وأدوات البنية التحتية، التي توفر الوصول والتكامل مع هذه النماذج. وربما الأهم من ذلك، هناك مساحة التطبيقات الرأسية الواسعة”.

يعد هذا القطاع أيضًا جذابًا للمستثمرين لأن الصوت فئة سهلة للاستفادة منها. قال جوناثان أوسيروفيتشي، الشريك العام في شركة Headline لرأس المال الاستثماري: “يمكنك تسعيرها حسب النتيجة، لذلك من السهل جدًا تحقيق الدخل منها”. “لهذا السبب لديك الكثير من العائدات – فمن السهل جدًا الحصول على عائد على الاستثمار، خاصة إذا كنت تحل محل الإنسان الذي يقوم بهذا العمل.”

كما ارتفعت شهية المستهلك للذكاء الاصطناعي الصوتي بشكل كبير. مع تفضيل المزيد من المستخدمين الحصول على المعلومات من خلال التنسيقات الصوتية مثل ملفات البودكاست، سلط سوكومار الضوء على الطلب المتزايد للمستهلكين على التحكم الصوتي والواجهات الصوتية. لقد قام ببناء PersuAIsion، وهي عبارة عن منصة صوتية للذكاء الاصطناعي تسمح للمستخدمين بممارسة المحادثات في العالم الحقيقي – بدءًا من مقابلات العمل وحتى المواعيد الأولى – لأنه رأى مجال الصوت لتلبية احتياجات المستهلكين هذه.

وقال: “إذا تمكنت OpenAI من الاستيلاء على وكيل صوت المستهلك، فسيكون هو ما كان من المفترض أن يكون عليه Siri”. “أعتقد أنه سيكون هناك الكثير من التفاعل مع الأجهزة الشخصية، وستكون هناك تجربة أفضل لمستهلكي التجارة الإلكترونية على هذه الجبهة.”

مختبرات الحدود تلحق بالركب

على الرغم من شعبيته المتزايدة، لا يبدو أن الذكاء الاصطناعي الصوتي يمتلك قوة هائلة حتى الآن. قد يكون جزء من السبب هو أن المختبرات الحدودية ظلت بعيدة إلى حد كبير عن الفضاء، ربما بسبب القلق من أن سوء استخدام قدرات توليد الصوت يمكن أن يؤدي إلى رد فعل عنيف محتمل، وفقًا لتقرير حالة الذكاء الاصطناعي لعام 2024 الصادر عن شركة Air Street Capital.

وقال ناثان بينيش، المؤسس والشريك العام لشركة Air Street Capital: “على الرغم من جمع كميات هائلة من البيانات الصوتية والمرئية، كانت المختبرات الحدودية بطيئة في إطلاق منتجات تحويل النص إلى كلام”. وأشار إلى وضع الصوت المتقدم الخاص بـ OpenAI، والذي تم تأجيله بشكل متكرر، وNotebookLM من Google، والذي “مغلق نسبيًا”.

لقد دق خبراء الذكاء الاصطناعي ناقوس الخطر بشأن احتمال صعود التزييف العميق في عام شهد انتخابات عالمية، لكن الأمر لم يحدث في نهاية المطاف.

وقال بينيش: “في جميع الاحتمالات، كانت المختبرات حريصة على تجنب الانجرار إلى حالة من الذعر بشأن التزييف العميق الذي غالبًا ما يصاحب الانتخابات الكبرى. أعتقد أنه من المحتم أن تلعب أكثر في هذا المجال، فقط لأن الفرصة التجارية المحتملة كبيرة جدًا”.

ربما تتحرك شركات التكنولوجيا الكبرى ببطء نحو هذا الاتجاه. تأخرت خطط أمازون لزيادة عروض مساعدها الصوتي من خلال Alexa حتى عام 2025، وعززت Apple مؤخرًا ميزة Siri الخاصة بها عن طريق إضافة إمكانات ChatGPT.

ومع ذلك، أشار بينيش إلى أنه لن يكون من السهل على أي شركة أن تحصل على التاج. وقال: “إن إزاحة شركات مثل ElevenLabs، التي تتمتع بالفعل بتبني واسع النطاق وتعمل على تحسين أدواتها لمستخدمي المؤسسات لسنوات حتى الآن، قد يكون أمرًا صعبًا”.