ما تحتاج لمعرفته عن أداة الذكاء الاصطناعي Sora من OpenAI

إليك أهم التفاصيل التي قد تحتاج معرفتها بخصوص أداة Sora لتوليد الفيديو بالذكاء الاصطناعي الجديدة من OpenAI.
بعد تطبيق المحادثة المعزز بالذكاء الاصطناعي ChatGPT لتوليد النصوص، ونماذج DALL-E المخصصة لإنشاء الصور بالذكاء الاصطناعي، ها هي OpenAI تستعرض عضلاتها مجددًا وتكشف النقاب عن أداة ذكاء اصطناعي جديدة، ولكن هذه المرة لإنشاء مقاطع الفيديو. حيث كشفت مؤخرًا عن نموذج ذكاء اصطناعي توليدي يولد فيديو من النص يُسمى "سورا" Sora (باليابانية: السماء) إذ يستطيع توليد مقاطع واقعية وخيالية اعتمادًا على الأوصاف النصية أو باستخدام الصور الثابتة لمدة تصل إلى دقيقة واحدة، كما يستطيع تمديد مقاطع الفيديو الموجودة عبر توليد من الإطارات (الفريمات) لملء التفاصيل المفقودة – وهذا شيء لو تعلمون عظيم! لذلك دعونا نسرد عبر السطور التالية أهم التفاصيل والقدرات التي يتمتع بها نموذج Sora ولماذا قد يمثل طفرة حقيقية في مجال الذكاء الاصطناعي التوليدي.

نموذج Sora لإنشاء الفيديو بالذكاء الاصطناعي

نموذج Sora لإنشاء الفيديو بالذكاء الاصطناعي


مبدئيًا، دعونا نوضح أنه حتى وقت كتابة هذا المقال، فإن الوصول لتطبيق Sora الجديد محدود للغاية كونه ما زال قيد الاختبارات والتطوير، كما يخضع للتجارب الأمنية من قبل أشخاص معدودين، حيث امتنعت OpenAI عن جعل Sora متاحًا للعامة إلى أن تضمن تطبيق أعلى معايير الأمان على النموذج والتي تتوافق مع مبادئ سلامة الذكاء الاصطناعي.

وعلى الرغم من أنها لا تُعد أداة الذكاء الاصطناعي الأولى من نوعها، فإن Sora تتفوق على المنافسين من حيث جودة الفيديوهات والتفاصيل، إذ تستطيع إنتاج مقطع فيديو بجودة 1080p، وبعرضٍ سلس للإطارات يُصعّب على غير المنتبهين أن يكتشفوا مصدره، وهذا على عكس أدوات شركتي Google و Meta القادرة على صنع فيديوهات بالذكاء الاصطناعي نعم، ولكن جودتها سيئة، وشكلها فظيع، وأي شخصٍ يستطيع كشفها بسهولة.

قدرات نموذج Sora الجديد من OpenAI



على موقعها الرسمي openai.com/sora شاركتنا OpenAI أمثلةً لما يمكن لأداتها الجديدة أن تفعل، وقياسًا على ما رأيناه، فالذكاء الاصطناعي تطور بشكلٍ مرعب في تجسيد الأشخاص، ومحاكاة الإضاءات والانعكاسات، فضلًا عن خلق بيئات سينمائية ممتازة؛ مقارنةً بما كان عليه من قبل بالطبع، أما لو كنا نتحدث في العموم، فالمنتج البشري لا زال متفوقًا بأميال. وجديرٌ بالذكر أن قدرات Sora ليست محدودةً برسم البشر فقط، وإنما تستطيع تجسيد الحيوانات بشكل واقعي كذلك.

مرةً أخرى، تُنشئ أداة Sora مقاطع فيديو واقعية وعالية الجودة من العدم، أو بمعنى أدق من عدة كلمات أو صور ثابتة، ولكي تستوعبوا مدى التطور المُرعب الذي وصلنا إليه، فقط تذكروا مقطع الفيديو المُنشأ بالذكاء الاصطناعي للممثل ويل سميث والذي كان مُضحكًا للغاية وجعلنا نستخف بقدرات الآلة، ذلك المقطع كان منذ عامٍ واحد فقط تقريبًا، قارنه بما يمكن لأداة OpenAI أن تفعله الآن وستعرف الفرق، وتذكر أن كل هذا في غضون عام!

تعترف OpenAI بنفسها أن نموذجها لا يزال قاصرًا، ويُلاحظ ذلك بالنظر إلى تفاصيل الفيديوهات من حركات اليدين وانعكاسات الإضاءات، بل وأحيانًا تكون العيوب واضحة جدًا كأن ترى رجلًا يجري في عكس اتجاه حركة آلة الجري (Treadmill) أو أن ترى "جلتشات" على مستوى التجسيد والحركة، فالنموذج يُعاني من قصور في المحاكاة الدقيقة للنواحي الفيزيائية وبخاصة في المشاهد المعقدة. ومع ذلك، لو أريت هذه الفيديوهات لأشخاصٍ دون إخبارهم بأنها مُنشأة بواسطة الذكاء الاصطناعي، فمن غير الوارد أن يكتشفوا ذلك، خصوصًا لو مرت عليهم بشكل عابر أثناء تصفح فيسبوك أو إنستجرام مثلًا.

كيف تُنشئ أداة Sora هذه الفيديوهات؟



تتمتع الأداة بفهمٍ عميق للغة وتستطيع تجسيد حتى المشاعر بشكل ممتاز. وتعمل Sora مثل بقية أدوات الذكاء الاصطناعي عن طريق تحويل النصوص والصور الثابتة إلى فيديوهات، وإذا كنت تعتقد أنها تحتاج إلى أسطرٍ كثيرة وعدد كبير من الكلمات حتى تُنتج مقطعًا مُعتبرًا فدعنا نُفاجئك بالعكس، حيث تستطيع الأداة أن تنتج فيديوهات رائعة بسطرٍ واحد أو بجمل مفتوحة منقوصة التفاصيل، أي أنها لا تختلف كثيرًا عن ميزة تحويل النصوص إلى صور في ChatGPT أو DALL-E 3.

أثبتت OpenAI قدرات Sora على الملء، وذلك بتلقي طلبات المستخدمين وتحويلها إلى فيديوهات في وقتٍ قياسي للمصداقية، ومع ذلك، لم تشاركنا أمثلةً على تحويل الصور الثابتة إلى فيديوهات أو إنشاء "الفريمات" من لا شيء وزيادة طول الفيديوهات. إذا كانت Sora فادرةً على تنفيذ هذه الأمور بكفاءةٍ فعلًا – ونحسبها كذلك – فسيكون لها وابلًا من الاستخدامات المفيدة في مختلف المجالات، كتعديل الفيديوهات.

من الأشياء التي لم نعرفها إلى الآن أيضًا، هو كيف استطاعت OpenAI أن تُدرب Sora على إنتاج هذه الفيديوهات؛ فلم تكشف الشركة سوى القليل عن البيانات المستخدمة لتدريب النموذج، فتقول إنها درَّبت الأداة على 10 آلاف ساعة من الفيديوهات عالية الجدودة، ولكنها لم تُخبرنا بأي تفاصيل أخرى. على كل حال، ستتكشف التفاصيل في المستقبل القريب بلا ريب.

يُذكَر أن OpenAI لم تتح الأداة للجميع لأنها تواجه تحديات ضخمة على مستوى الخصوصية وحقوق الملكية، ولهذا السبب الأخير تحديدًا نجدها تدرس الأمر مع صُناع القرار والمُعلمين والفنانين وكل من قد يتأذّى بشكلٍ مباشرة أو غير مباشر بسبب Sora، ولنفس السبب أيضًا، تعمل الشركة مع خبراء على تمييز الفيديوهات المُنشأة بواسطة الأداة عن طريق معيار يُسمى C2PA وهذا سيقلل من المعلومات المضللة والمحتوى الضار الذي قد يُنشئه البعض مُستعينين بـ Sora.
أحمد صفوت صلاح الدين
أحمد صفوت صلاح الدين
كاتب محتوى تقني وصحفي علمي، لي مساهمات عدة في مواقع عربية مختلفة مثل أراجيك، وإضاءات. أهوى الكتابة عمومًا وأريد أن أصنع فارقًا.
تعليقات

احدث المقالات