بعد تطبيق المحادثة المعزز بالذكاء الاصطناعي
ChatGPT لتوليد النصوص، ونماذج DALL-E المخصصة
لإنشاء الصور بالذكاء الاصطناعي، ها هي OpenAI تستعرض عضلاتها مجددًا وتكشف النقاب عن أداة ذكاء اصطناعي جديدة،
ولكن هذه المرة لإنشاء مقاطع الفيديو. حيث
كشفت مؤخرًا
عن نموذج ذكاء اصطناعي توليدي
يولد فيديو من النص
يُسمى
"سورا" Sora
(باليابانية: السماء) إذ يستطيع توليد مقاطع واقعية وخيالية اعتمادًا على
الأوصاف النصية أو باستخدام الصور الثابتة لمدة تصل إلى دقيقة واحدة، كما
يستطيع
تمديد مقاطع الفيديو الموجودة
عبر توليد من الإطارات (الفريمات) لملء التفاصيل المفقودة – وهذا شيء لو تعلمون
عظيم! لذلك دعونا نسرد عبر السطور التالية أهم التفاصيل والقدرات التي يتمتع بها
نموذج Sora ولماذا قد يمثل طفرة حقيقية في مجال الذكاء الاصطناعي التوليدي.
نموذج Sora لإنشاء الفيديو بالذكاء الاصطناعي
مبدئيًا، دعونا نوضح أنه حتى وقت كتابة هذا المقال، فإن الوصول لتطبيق Sora
الجديد محدود للغاية كونه ما زال قيد الاختبارات والتطوير، كما يخضع للتجارب
الأمنية من قبل أشخاص معدودين، حيث امتنعت OpenAI عن جعل Sora متاحًا للعامة
إلى أن تضمن تطبيق أعلى معايير الأمان على النموذج والتي تتوافق مع مبادئ
سلامة الذكاء الاصطناعي.
وعلى الرغم من أنها لا تُعد أداة الذكاء الاصطناعي الأولى من نوعها، فإن Sora
تتفوق على المنافسين من حيث جودة الفيديوهات والتفاصيل، إذ تستطيع إنتاج مقطع
فيديو بجودة 1080p، وبعرضٍ سلس للإطارات يُصعّب على غير المنتبهين أن يكتشفوا
مصدره، وهذا على عكس أدوات شركتي Google و Meta القادرة على صنع فيديوهات
بالذكاء الاصطناعي نعم، ولكن جودتها سيئة، وشكلها فظيع، وأي شخصٍ يستطيع كشفها
بسهولة.
قدرات نموذج Sora الجديد من OpenAI
على موقعها الرسمي openai.com/sora
شاركتنا OpenAI أمثلةً لما يمكن لأداتها الجديدة أن تفعل، وقياسًا على ما رأيناه،
فالذكاء الاصطناعي تطور بشكلٍ مرعب في تجسيد الأشخاص، ومحاكاة الإضاءات
والانعكاسات، فضلًا عن خلق بيئات سينمائية ممتازة؛ مقارنةً بما كان عليه من قبل
بالطبع، أما لو كنا نتحدث في العموم، فالمنتج البشري لا زال متفوقًا بأميال.
وجديرٌ بالذكر أن قدرات Sora ليست محدودةً برسم البشر فقط، وإنما تستطيع تجسيد
الحيوانات بشكل واقعي كذلك.
مرةً أخرى، تُنشئ أداة Sora مقاطع فيديو واقعية وعالية الجودة من العدم، أو بمعنى
أدق من عدة كلمات أو صور ثابتة، ولكي تستوعبوا مدى التطور المُرعب الذي وصلنا
إليه، فقط تذكروا مقطع الفيديو المُنشأ بالذكاء الاصطناعي للممثل ويل سميث والذي
كان مُضحكًا للغاية وجعلنا نستخف بقدرات الآلة،
ذلك المقطع
كان منذ عامٍ واحد فقط تقريبًا، قارنه بما يمكن لأداة OpenAI أن تفعله الآن
وستعرف الفرق، وتذكر أن كل هذا في غضون عام!
تعترف OpenAI بنفسها أن نموذجها لا يزال قاصرًا، ويُلاحظ ذلك بالنظر إلى تفاصيل
الفيديوهات من حركات اليدين وانعكاسات الإضاءات، بل وأحيانًا تكون العيوب واضحة
جدًا كأن ترى رجلًا يجري في عكس اتجاه حركة آلة الجري (Treadmill) أو أن ترى
"جلتشات" على مستوى التجسيد والحركة، فالنموذج يُعاني من قصور في المحاكاة الدقيقة للنواحي الفيزيائية وبخاصة في المشاهد المعقدة. ومع ذلك، لو أريت هذه الفيديوهات لأشخاصٍ
دون إخبارهم بأنها مُنشأة بواسطة الذكاء الاصطناعي، فمن غير الوارد أن يكتشفوا
ذلك، خصوصًا لو مرت عليهم بشكل عابر أثناء تصفح فيسبوك أو إنستجرام مثلًا.
كيف تُنشئ أداة Sora هذه الفيديوهات؟
تتمتع الأداة بفهمٍ عميق للغة وتستطيع تجسيد حتى المشاعر بشكل ممتاز. وتعمل Sora
مثل بقية أدوات الذكاء الاصطناعي عن طريق تحويل النصوص والصور الثابتة إلى
فيديوهات، وإذا كنت تعتقد أنها تحتاج إلى أسطرٍ كثيرة وعدد كبير من الكلمات حتى
تُنتج مقطعًا مُعتبرًا فدعنا نُفاجئك بالعكس، حيث تستطيع الأداة أن تنتج فيديوهات
رائعة بسطرٍ واحد أو بجمل مفتوحة منقوصة التفاصيل، أي أنها لا تختلف كثيرًا عن
ميزة تحويل النصوص إلى صور في ChatGPT أو DALL-E 3.
أثبتت OpenAI قدرات Sora على الملء، وذلك بتلقي طلبات المستخدمين وتحويلها إلى
فيديوهات في وقتٍ قياسي للمصداقية، ومع ذلك، لم تشاركنا أمثلةً على تحويل الصور
الثابتة إلى فيديوهات أو إنشاء "الفريمات" من لا شيء وزيادة طول الفيديوهات. إذا
كانت Sora فادرةً على تنفيذ هذه الأمور بكفاءةٍ فعلًا – ونحسبها كذلك – فسيكون لها
وابلًا من الاستخدامات المفيدة في مختلف المجالات، كتعديل الفيديوهات.
من الأشياء التي لم نعرفها إلى الآن أيضًا، هو كيف استطاعت OpenAI أن تُدرب Sora
على إنتاج هذه الفيديوهات؛ فلم تكشف الشركة سوى القليل عن البيانات المستخدمة لتدريب النموذج، فتقول إنها درَّبت الأداة على 10 آلاف ساعة من
الفيديوهات عالية الجدودة، ولكنها لم تُخبرنا بأي تفاصيل أخرى. على كل حال،
ستتكشف التفاصيل في المستقبل القريب بلا ريب.
يُذكَر أن OpenAI لم تتح الأداة للجميع لأنها تواجه تحديات ضخمة على مستوى
الخصوصية وحقوق الملكية، ولهذا السبب الأخير تحديدًا نجدها تدرس الأمر مع صُناع
القرار والمُعلمين والفنانين وكل من قد يتأذّى بشكلٍ مباشرة أو غير مباشر بسبب
Sora، ولنفس السبب أيضًا، تعمل الشركة مع خبراء على تمييز الفيديوهات المُنشأة
بواسطة الأداة عن طريق معيار يُسمى C2PA وهذا سيقلل من المعلومات المضللة
والمحتوى الضار الذي قد يُنشئه البعض مُستعينين بـ Sora.