عندما تغني مادونا أغنية “La Isla Bonita” التي تعود إلى الثمانينيات في جولتها الموسيقية، يتم تشغيل صور متحركة لسحب ملوّنة بلون غروب الشمس على شاشات الساحة العملاقة خلفها.

للحصول على هذا المظهر الأثيري، تبنت أسطورة البوب ​​فرعًا غير معروف بعد من الذكاء الاصطناعي التوليدي – أداة تحويل النص إلى فيديو. اكتب بعض الكلمات – على سبيل المثال، “غروب الشمس السحابي السريالي” أو “شلال في الغابة عند الفجر” – وسيتم إنشاء مقطع فيديو فوري.

على خطى روبوتات الدردشة ومولدات الصور الثابتة التي تعتمد على الذكاء الاصطناعي، يقول بعض المتحمسين لفيديو الذكاء الاصطناعي إن التكنولوجيا الناشئة يمكن أن تقلب مستوى الترفيه يومًا ما، مما يتيح لك اختيار الفيلم الخاص بك مع خطوط قصة ونهايات قابلة للتخصيص. ولكن لا يزال أمامهم طريق طويل قبل أن يتمكنوا من القيام بذلك، وهناك الكثير من المخاطر الأخلاقية على الطريق.

بالنسبة للمتبنين الأوائل مثل مادونا، التي تجاوزت حدود الفن لفترة طويلة، كان الأمر أكثر من مجرد تجربة. لقد ألغت نسخة سابقة من صور الحفلة الموسيقية “La Isla Bonita” التي استخدمت رسومات حاسوبية أكثر تقليدية لإثارة مزاج استوائي.

“لقد جربنا CGI. قالت ساشا كاسيوها، مديرة المحتوى لجولة مادونا الاحتفالية التي تستمر حتى أواخر أبريل: “بدا الأمر لطيفًا ومبتذلًا ولم يعجبها”. “وبعد ذلك قررنا تجربة الذكاء الاصطناعي.”

أعطى OpenAI، صانع ChatGPT، لمحة عما قد تبدو عليه تقنية تحويل النص إلى فيديو المتطورة عندما قامت الشركة مؤخرًا أظهر سورا، وهي أداة جديدة ليست متاحة للعامة بعد. جرب فريق مادونا منتجًا مختلفًا من شركة Runway الناشئة في نيويورك، والتي ساعدت في ريادة هذه التكنولوجيا من خلال إطلاق أول نموذج عام لتحويل النص إلى فيديو في مارس الماضي. أصدرت الشركة إصدارًا أكثر تقدمًا “Gen-2” في يونيو.

قال كريستوبال فالينزويلا، الرئيس التنفيذي لشركة Runway، إنه بينما يرى البعض أن هذه الأدوات هي “جهاز سحري تكتب فيه كلمة وتستحضر بطريقة ما ما كان في رأسك بالضبط”، فإن الأساليب الأكثر فعالية هي من قبل محترفين مبدعين يبحثون عن ترقية إلى الأدوات القديمة التي استمرت لعقود من الزمن. برامج التحرير الرقمي التي يستخدمونها بالفعل.

وقال إن Runway لا يمكنه حتى الآن إنتاج فيلم وثائقي كامل. ولكنها يمكن أن تساعد في ملء بعض مقاطع الفيديو الخلفية، أو اللقطات الداعمة والمشاهد التي تساعد في سرد ​​القصة.

قال فالينزويلا: “ربما يوفر عليك هذا أسبوعًا من العمل”. “إن القاسم المشترك بين الكثير من حالات الاستخدام هو أن الأشخاص يستخدمونها كوسيلة لتعزيز أو تسريع شيء كان بإمكانهم القيام به من قبل.”

عملاء Runway المستهدفون هم “شركات البث الكبيرة، وشركات الإنتاج، وشركات ما بعد الإنتاج، وشركات المؤثرات البصرية، وفرق التسويق، وشركات الإعلان. قال فالينزويلا: “هناك الكثير من الأشخاص الذين يصنعون المحتوى لكسب لقمة العيش”.

المخاطر تنتظر. وبدون ضمانات فعالة، يمكن لمولدات الفيديو التي تعمل بالذكاء الاصطناعي أن تهدد الديمقراطيات بمقاطع فيديو “مزيفة بعمق” مقنعة لأشياء لم تحدث قط، أو – كما هو الحال بالفعل مع مولدات الصور التي تعمل بالذكاء الاصطناعي – قد تغمر الإنترنت بمشاهد إباحية مزيفة تصور أشخاصاً حقيقيين وجوه يمكن التعرف عليها. تحت ضغط من المنظمين، الرائد لقد وعدت شركات التكنولوجيا لوضع علامة مائية على المخرجات التي تم إنشاؤها بواسطة الذكاء الاصطناعي للمساعدة في تحديد ما هو حقيقي.

هناك أيضًا نزاعات بشأن حقوق الطبع والنشر تختمر حول مجموعات الفيديو والصور التي يتم تدريب أنظمة الذكاء الاصطناعي عليها (لم تكشف Runway أو OpenAI عن مصادر بياناتها) وإلى أي مدى تقوم بتكرار الأعمال المسجلة كعلامة تجارية بشكل غير عادل. وهناك مخاوف من أن تحل آلات صنع الفيديو، في مرحلة ما، محل الوظائف البشرية والمهارات الفنية.

في الوقت الحالي، لا يزال يتم قياس أطول مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي بالثواني، ويمكن أن تتميز بحركات متشنجة ومواطن خلل واضحة مثل الأيدي والأصابع المشوهة. وقال ألكسندر وايبل، أستاذ علوم الكمبيوتر في جامعة كارنيجي ميلون الذي يبحث في الذكاء الاصطناعي منذ السبعينيات، إن إصلاح ذلك “مجرد مسألة المزيد من البيانات والمزيد من التدريب”، والقوة الحاسوبية التي يعتمد عليها هذا التدريب.

قال وايبل: “الآن أستطيع أن أقول: “اصنعوا لي مقطع فيديو لأرنب يرتدي زي نابليون وهو يمشي في مدينة نيويورك”. “إنها تعرف كيف تبدو مدينة نيويورك، وكيف يبدو الأرنب، وكيف يبدو نابليون.”

وقال إنه أمر مثير للإعجاب، لكنه لا يزال بعيدًا عن صياغة قصة مقنعة.

قبل أن تطلق نموذج الجيل الأول في العام الماضي، كانت شهرة شركة Runway في مجال الذكاء الاصطناعي هي كونها مطورًا مشاركًا لمولد الصور Stable Diffusion. تولت منذ ذلك الحين شركة أخرى، Stability AI ومقرها لندن، مسؤولية تطوير Stable Diffusion.

تعمل تقنية “نموذج الانتشار” الأساسية وراء معظم مولدات الذكاء الاصطناعي الرائدة للصور والفيديو عن طريق تعيين الضوضاء، أو البيانات العشوائية، على الصور، وتدمير الصورة الأصلية بشكل فعال ومن ثم التنبؤ بالشكل الذي يجب أن تبدو عليه الصورة الجديدة. فهو يستعير فكرة من الفيزياء يمكن استخدامها لوصف، على سبيل المثال، كيفية انتشار الغاز إلى الخارج.

وقال فيليب إيزولا، الأستاذ المشارك في علوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا: “ما تفعله نماذج الانتشار هو أنها تعكس هذه العملية”. “إنهم يأخذون العشوائية نوعًا ما ويجمعونها مرة أخرى في المجلد. هذه هي الطريقة للانتقال من العشوائية إلى المحتوى. وهذه هي الطريقة التي يمكنك بها إنشاء مقاطع فيديو عشوائية.

قالت دانييلا روس، وهي أستاذة أخرى في معهد ماساتشوستس للتكنولوجيا وتدير مختبر علوم الكمبيوتر والذكاء الاصطناعي، إن توليد الفيديو أكثر تعقيدًا من الصور الثابتة لأنه يحتاج إلى أن يأخذ في الاعتبار الديناميكيات الزمنية، أو كيفية تغير العناصر داخل الفيديو بمرور الوقت وعبر تسلسل الإطارات.

وقال روس إن موارد الحوسبة المطلوبة “أعلى بكثير من توليد الصور الثابتة” لأنها “تتضمن معالجة وتوليد إطارات متعددة لكل ثانية من الفيديو”.

هذا لا يمنع بعض شركات التكنولوجيا الغنية من محاولة الاستمرار في التفوق على بعضها البعض في عرض إنتاج فيديو عالي الجودة بتقنية الذكاء الاصطناعي على فترات أطول. كان طلب الأوصاف المكتوبة لإنشاء صورة مجرد البداية. عرضت Google مؤخرًا مشروعًا جديدًا يسمى Genie والذي يمكن مطالبته بتحويل صورة أو حتى رسم تخطيطي إلى “مجموعة لا نهاية لها” من عوالم ألعاب الفيديو القابلة للاستكشاف.

وقال أديتي سينغ، الباحث في جامعة ولاية كليفلاند الذي قام بدراسة تحويل النص إلى مقاطع فيديو، إنه على المدى القريب، من المرجح أن تظهر مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي في المحتوى التسويقي والتعليمي، مما يوفر بديلاً أرخص لإنتاج لقطات أصلية أو الحصول على مقاطع فيديو مخزنة. سوق الفيديو.

عندما تحدثت مادونا لأول مرة مع فريقها عن الذكاء الاصطناعي، “لم يكن القصد الرئيسي هو: أوه، انظر، إنه فيديو يعمل بالذكاء الاصطناعي”، كما قال كاسيوها، المدير الإبداعي.

قال كاسيوها: “سألتني: هل يمكنك فقط استخدام إحدى أدوات الذكاء الاصطناعي هذه لجعل الصورة أكثر وضوحًا، للتأكد من أنها تبدو حديثة وذات دقة عالية؟”. “إنها تحب جلب التكنولوجيا الجديدة وأنواع جديدة من العناصر المرئية.”

يتم بالفعل إنتاج أفلام أطول تم إنشاؤها بواسطة الذكاء الاصطناعي. يستضيف Runway مهرجانًا سنويًا لأفلام الذكاء الاصطناعي لعرض مثل هذه الأعمال. ولكن يبقى أن نرى ما إذا كان هذا هو ما سيختار الجمهور البشري مشاهدته.

وقال وايبل، أستاذ جامعة كارنيجي ميلون: “ما زلت أؤمن بالبشر”. “ما زلت أعتقد أنه سينتهي به الأمر إلى تكافل حيث تحصل على بعض الذكاء الاصطناعي يقترح شيئًا ما ويقوم الإنسان بتحسينه أو توجيهه. أو أن البشر سيفعلون ذلك وسيقوم الذكاء الاصطناعي بإصلاح الأمر.

————

ساهم في هذا التقرير صحفيو وكالة أسوشيتد برس جوزيف ب. فريدريك ورودريك نجوي.

شاركها.