أخبار العالم

يقوم الذكاء الاصطناعي الجديد من DeepMind بإنشاء مقاطع صوتية وحوارات لمقاطع الفيديو


يقول DeepMind، مختبر أبحاث الذكاء الاصطناعي التابع لشركة Google، إنه يقوم بتطوير تقنية الذكاء الاصطناعي لإنشاء مقاطع صوتية لمقاطع الفيديو.

وفي منشور على مدونتها الرسمية، تقول شركة DeepMind إنها ترى التكنولوجيا V2A (اختصار لـ “فيديو إلى صوت”)، باعتبارها جزءًا أساسيًا من أحجية الوسائط التي يولدها الذكاء الاصطناعي. في حين أن الكثير من المؤسسات، بما في ذلك DeepMind، قامت بتطوير نماذج الذكاء الاصطناعي لإنشاء الفيديو، إلا أن هذه النماذج لا يمكنها إنشاء مؤثرات صوتية للمزامنة مع مقاطع الفيديو التي تنشئها.

كتب ديب مايند: “تتقدم نماذج توليد الفيديو بوتيرة مذهلة، لكن العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة”. “تقنية V2A [could] أصبحت طريقة واعدة لإضفاء الحيوية على الأفلام التي تم إنتاجها.”

تأخذ تقنية DeepMind’s V2A وصفًا للموسيقى التصويرية (على سبيل المثال، “قنديل البحر ينبض تحت الماء، والحياة البحرية، والمحيط”) مقترنة بمقطع فيديو لإنشاء موسيقى ومؤثرات صوتية وحتى حوار يتطابق مع شخصيات ونبرة الفيديو، مع وضع علامة مائية بواسطة التزييف العميق لـ DeepMind. -مكافحة تقنية SynthID. يقول DeepMind إن نموذج الذكاء الاصطناعي الذي يعمل على تشغيل V2A، وهو نموذج نشر، تم تدريبه على مجموعة من الأصوات ونصوص الحوار بالإضافة إلى مقاطع الفيديو.

“من خلال التدريب على الفيديو والصوت والتعليقات التوضيحية الإضافية، تتعلم تقنيتنا ربط أحداث صوتية محددة بمشاهد مرئية مختلفة، مع الاستجابة للمعلومات المقدمة في التعليقات التوضيحية أو النصوص”، وفقًا لـ DeepMind.

أمي هي الكلمة حول ما إذا كانت أي من بيانات التدريب محمية بحقوق الطبع والنشر – وما إذا كان منشئو البيانات على علم بعمل DeepMind. لقد تواصلنا مع DeepMind للتوضيح وسنقوم بتحديث هذا المنشور إذا سمعنا ردًا.

أدوات توليد الصوت التي تعمل بالذكاء الاصطناعي ليست جديدة. أصدرت شركة Startup Stability AI واحدة منها في الأسبوع الماضي فقط، وأطلقت ElevenLabs واحدًا في مايو. ولا توجد نماذج لإنشاء مؤثرات صوتية للفيديو. يمكن لمشروع Microsoft إنشاء مقاطع فيديو للحديث والغناء من صورة ثابتة، وقد قامت منصات مثل Pika وGenreX بتدريب نماذج لالتقاط مقطع فيديو وتقديم أفضل تخمين بشأن الموسيقى أو التأثيرات المناسبة في مشهد معين.

لكن DeepMind تدعي أن تقنية V2A الخاصة بها فريدة من نوعها من حيث أنها تستطيع فهم وحدات البكسل الأولية من مقطع فيديو ومزامنة الأصوات الناتجة مع الفيديو تلقائيًا، اختياريًا بدون وصف.

تقنية V2A ليست مثالية، وتقر شركة DeepMind بذلك. نظرًا لأن النموذج الأساسي لم يتم تدريبه على الكثير من مقاطع الفيديو التي تحتوي على عناصر أو تشويهات، فإنه لا ينشئ صوتًا عالي الجودة بشكل خاص لهذه المقاطع. وبشكل عام، الصوت الناتج ليس كذلك ممتاز مقنع؛ ووصفتها زميلتي ناتاشا لوماس بأنها “مجموعة متنوعة من الأصوات النمطية”، ولا أستطيع أن أقول إنني لا أوافق على ذلك.

لهذه الأسباب، ولمنع سوء الاستخدام، تقول شركة DeepMind إنها لن تطلق التكنولوجيا للعامة في أي وقت قريب، هذا إن حدث ذلك.

“للتأكد من أن تقنية V2A الخاصة بنا يمكن أن يكون لها تأثير إيجابي على المجتمع الإبداعي، فإننا نجمع وجهات نظر ورؤى متنوعة من كبار المبدعين وصانعي الأفلام، ونستخدم هذه التعليقات القيمة لإرشاد بحثنا وتطويرنا المستمر،” كتب DeepMind. “قبل أن نفكر في فتح الوصول إليها أمام الجمهور على نطاق أوسع، ستخضع تقنية V2A لدينا لتقييمات واختبارات صارمة للسلامة.”

تقدم DeepMind تقنية V2A الخاصة بها كأداة مفيدة بشكل خاص لأمناء المحفوظات والأشخاص الذين يعملون مع اللقطات التاريخية. لكن الذكاء الاصطناعي التوليدي على هذا المنوال يهدد أيضًا بقلب صناعة السينما والتلفزيون رأسًا على عقب. سوف يتطلب الأمر بعض إجراءات حماية العمال القوية على محمل الجد لضمان أن أدوات الوسائط التوليدية لا تقضي على الوظائف – أو، حسب الحالة، المهن بأكملها.




اكتشاف المزيد من موقع خبرة التقني

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع خبرة التقني

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading