5 أشياء مذهلة يمكن لنموذج GPT-4o الجديد أن يفعلها

بعد أقلّ من عام ونصف فقط مضت منذ إطلاقها بوت الذكاء الاصطناعي الأشهر ChatGPT، والذي لاقى نجاحًا كاسحًا على مستوى العالم، استطاعت شركة OpenAI أن تعود للفت الأنظار إليها مُجدّدًا عندما كشفت في 13 مايو الجاري عن إطلاقها نموذج الذكاء الاصطناعي الأكثر تطورًا "GPT-4o" والذي يهدف إلى تعزيز إمكانيات وقُدرات ChatGPT وتحسين أدائه.

جاء النموذج الجديد مدعومًا بالذكاء الاصطناعيّ متعدّد الوسائط، وبالتالي؛ سيكون قادرًا على الاستجابة للمُدخلات الصوتيّة والمرئيّة لا المكتوبة فقط، وفهم الكلام دون الحاجة إلى نسخ النصّ أولاً، وهو ما يجعله أكثر كفاءة وأسرع أداءًا مُقارنة بنموذج GPT-4 المُستخدم حاليًا، بالإضافة إلى مميّزات استخدامه كمُساعد صوتيّ. ولفهم مميّزات النموذج الجديد بشكل عمليّ سوف نُركّز في هذه المقالة على الاستخدامات المُحتملة والمهام والوظائف التي يُمكن أن يؤدّيها GPT-4o.

قدرات نموذج GPT-4o

أولًا: أبرز الاختلافات بين GPT-4 و GPT-4o

شهد أداء تطبيق Chat GPT تحسّنًا كبيرًا وتطوّرًا واضحًا مع بدء استخدام نموذج GPT-4 الحاليّ مُقارنةً بنموذج GPT-3.5 السابق، وعلى الرغم من أنّ نموذج GPT-4o يُعدّ إصدارًا مُحسّنًا من نموذج GPT-4 المُستخدم حاليًا، فإنّ نموذج GPT-4o استطاع التفوّق على النموذج الحاليّ من خلال دمج قُدرات وإمكانيّات الذكاء الاصطناعيّ متعدّد الوسائط، وبالتالي؛ فالاختلاف الجوهريّ ما بين نموذج GPT-4o الجديد ونموذج GPT-4 الحاليّ يتمثّل في قُدرة GPT-4o على التفاعل مع المُدخلات النصّية والصوتيّة والمرئيّة ممّا يمنحه إمكانيّات وقدرات مُتقدّمة على فهم ومُعالجة الكلام البشريّ الطبيعيّ والاستجابة له، على حين يتفاعل GPT-4o بشكل أساسيّ مع المدخلات النصّية.

إلى جانب هذه الإمكانيّات تميّز GPT-4o عن GPT-4 أيضًا بكفاءة أكبر وسًرعة مُعالجة أعلى تجعله قادرًا على أداء المزيد من الوظائف والمهام في الوقت الفعليّ مثل تحليل الصور وترجمة المحادثات في الوقت الفعليّ ومعالجة الصوت ومقاطع الفيديو في الوقت الفعليّ وغير ذلك. يستغرق GPT-4o أقلّ من 232 مللي ثانية للاستجابة إلى المُدخلات الصوتيّة، وهو ما يُعادل تقريبًا نفس زمن الاستجابة الطبيعيّ للبشر ممّا يجعل التطبيق أقرب لمُحاكاة أداء البشر الطبيعيّين أثناء المُحادثات.

ثانيًا: ما الذي يُمكن لنموذج GPT-4o القيام به؟

إضافة النصوص للصور

يعتمد تطبيق ChatGPT في الوقت الحالي على نموذج Dall-E 3 الذي طوّرته OpenAI ودمجته في التطبيق في سبتمبر 2023 لكي تُمكّن مُستخدمي ChatGPT Plus من مُطالبة البوت بإنشاء الصور باستخدام الذكاء الاصطناعيّ.

لا يزال Dall-E 3 وأدوات إنشاء الصور بالذكاء الاصطناعيّ الأخرى المبنيّة على نموذج Diffusion تُعاني قصورًا في إنشاء صور بالذكاء الاصطناعيّ تتضمّن نصًّا مكتوبًا مُحدّدًا، ولكن مع نموذج GPT-4o الجديد، سوف يكون بإمكان ChatGPT إنشاء وتوليد الصور من النصوص المكتوبة باستخدام الذكاء الاصطناعيّ وإضافة النصوص بدقّة مذهلة للصور المولّدة إذا طُلب منه ذلك. ظهر ذلك في النتائج التي عرضتها OpenAI لعيّنات أوّليّة منشأة باستخدام نموذج GPT-4o، والتي بدا فيها النصّ المُدمج مُتّسقًا مع الصورة المنشاة غير دخيل عليها إلى حدّ مُذهل.

وبفضل طبيعة نموذج GPT-4o متعدّدة الوسائط بحيث يمكنه التفاعل مع المدخلات المرئيّة والصوتيّة أيضًا، سوف يكون بإمكان المُستخدم إدخال الصور الجاهزة إلى تطبيق ChatGPT، ومطالبته بدمج نصوص مُحدّدة إليها مع إمكانيّة التحكُّم في الخطوط والتحكُّم في عرض الأحرف في النصّ من مُختلف الزوايا وإنشاء عرض ثلاثي الأبعاد لها.

معالجة مقاطع الفيديو في الوقت الفعليّ

أدّت إمكانيّات الذكاء الاصطناعيّ مُتعدّد الوسائط أيضًا إلى جعل نموذج GPT-4o قادرًا على مُعالجة مقاطع الفيديو في الوقت الفعليّ، ويعني هذا إنّ بإمكان مُستخدم ChatGPT إدخال مقاطع الفيديو على التطبيق ومُطالبة البوت بتلخيص محتوى هذه المقاطع أو استخلاص النقاط الرئيسيّة منها. يمتلك نموذج Gemini 1.5 Pro المُستخدم في تطبيق Gemini Advanced الخاص بجوجل في الوقت الحالي أداة لمعالجة مقاطع الفيديو تؤدّي وظائفًا مُشابهة لهذه الوظيفة.

الاستخدام في الأنشطة التعليميّة

من المُذهل حقًّا أن يُصبح الذكاء الاصطناعيّ بمثابة مُعلّم خاص لك يُساعدك على فهم دروسك ويُبسّط لك المواد التعليميّة في جلسات تفاعليّة تُحاكي أداء المُعلّمين البشريّين. أصبح هذا مُمكنًا بالفعل بفضل نموذج GPT-4o مُتعدّد الوسائط. يُمكنك أن تُشارك شاشتك مع تطبيق ChatGPT بينما أنت تُذاكر على جهاز التابلت أو جهاز الكمبيوتر الخاص بك، ثُمّ تُطلب من التطبيق أن يقوم بشرح مسائل الرياضيّات التي استعصي عليك فهمها أو تطلب منه مُساعدك في إيجاد حلول لها.

لا يقتصر الأمر على المسائل الرياضيّة فحسب، إذ يُمكن لنموذج GPT-4o تقديم الكثير من الشروحات في مُختلف فروع العلوم لمُساعدتك على فهم المواد الدراسيّة المُختلفة يُمكنك أن تطلب منه على سبيل المثال إنشاء أو شرح الرسوم البيانيّة أو رسم الخرائط وإيضاح البيانات المتعلّقة بها كما يُمكنه شرح وتبسيط العلوم.

المُساعدة على فهم الرموز المميّزة في اللغات الأخرى

يُشير مُصطلح الترميز اللغويّ في مجال مُعالجة اللغات الطبيعيّة والتعلُّم الآلي إلى عمليّة اختزال النصوص بتحويل عدد من الكلمات أو العبارات الطويلة في لغة مُعيّنة إلى أجزاء أصغر تتألّف من عدد قليل من الأحرف أو الكلمات، وتُعرف باسم الرموز المُميّزة، فمثلًا لفظ "GPT-4o" في الإنجليزيّة يتمّ ترجمته في اللغة العربيّة إلى "جي بي تي-4 أو".

تمتلك اللغات المعروفة أعدادًا متفاوتة من هذه الرموز المميّزة، ولقد قطع GPT-4o شوطًا لا بأس به في فهم الرموز المميّزة الخاصّة بعدة لغات، فوفقًا لموقعها الرسميّ، جرّبت اختبار استجابة GPT-4o لعبارات تحوي رموزًا مُميّزة بنحو 20 لغة بخلاف الإنجليزيّة، وتفاعل معها النموذج على نحو سليم. يُشير هذا إلى تحسّن أداء النموذج بشكل واضح في التعامل مع اللغات المُختلفة ويُتيح إمكانيّة استخدامه في الترجمة الفوريّة في الوقت الفعليّ إذا أخذنا في الاعتبار سرعة الاستجابة الكبيرة التي تميّز بها هذا النموذج.

المُشاركة في الاجتماعات

يتمتّع نموذج GPT-4o بقُدرة فائقة على فهم الكلام البشريّ ومُعالجته والتفاعل معه بسرعة كبيرة، ويُمكن الاستفادة من هذه القُدرات في اجتماعات العمل من خلال مُشاركة الصوت والصورة كمُدخلات إلى تطبيق Chat GPT-4o والسماح له بسماع ورؤية المُشاركين أثناء الاجتماعات، ومن ثمّ يُمكنهم طرح أسئلة على نموذج GPT-4o لحلّ مُشكلات العمل متى اقتضت الحاجة لذلك، ويُمكن للتطبيق في النهاية استخلاص النقاط الرئيسيّة التي تمّت مُناقشتها أثناء الاجتماع.

بدأت OpenAI بالفعل في طرح GPT-4o وإتاحته تدريجيًّا لبعض المُستخدمين، وسيكون استخدام GPT-4o مُتاحًا مجّانًا على تطبيق ChatGPT لجميع المُستخدمين قريبًا حسبما أعلنت OpenAI، بينما سيتمتّع المستخدمون المشتركون في خدمة ChatGPT Plus المدفوعة من إدخال عدد إضافيّ من المُطالبات للتطبيق في الساعة الواحدة يصل إلى خمسة أضعاف المُطالبات المُتاحة للمُستخدمين المجّانيّين. النموذج مُتاح أيضًا كتطبيق لمُستخدمي أجهزة ماك من آبل، كما أتاحت OpenAI للمطوّرين إمكانيّة الوصول إلى نموذج GPT-4o وتعديله من خلال واجهات برمجة التطبيقات (API) الأسرع وأقلّ تكلفة من واجهة GPT-4 Turbo.

عالم الكمبيوتر