كل ما تحتاج معرفته عن نموذج الذكاء الاصطناعي Gemini من جوجل

في مؤتمر Google I/O 2023 الذي أُقيم في شهر يونيو المنصرم، أعطانا المدير التنفيذي لجوجل «ساندر بيتشاي» لمحة سريعة عن نموذج ذكاء اصطناعي مُرعب يُسمى "Gemini AI" والذي يختلف عن النموذج اللغوي التابع للشركة PaLM 2 حيث أن الأخير يقتصر على فهم النصوص فحسب، أما الأول يعُد نموذج متعدد المصادر (Multimodal) أي يمكنه فهم الصور ومقاطع الفيديو والصوت أيضًا.

وبعد تردد أنباء عن نية جوجل تأجيل إطلاقه لعام 2024، قررت الشركة بالأمس، الموافق السادس من ديسمبر 2023، الإعلان عن Gemini عبر المدير التنفيذي لفريق DeepMind – قسم الذكاء الاصطناعي بشركة جوجل – «ديمس هاسابيس» واستعراض قدراته الهائلة التي تتجاوز أي نموذج آخر طورته الشركة، بل يستطيع تهديد مكانة الشركات الأخرى وعلى رأسها OpenAI. على حد وصف «بيتشاي»، فإن الذكاء الاصطناعي بشركة جوجل على وشك دخول حقبة جديدة أسماها بحقبة "جيميناي" أو Gemini Era. فما هذا الـ Gemini تحديدًا؟ وهل هو قادرٌ على مجابهة جبروت نموذج GPT-4؟ إليكم كل ما نعرفه حتى الآن.

أحدث وأقوى نموذج ذكاء اصطناعي من جوجل

أولًا: ما هو "جيميناي" Gemini ؟

هو نموذجُ ذكاء اصطناعي جديد متعدد المصادر – متوفر بالإنجليزية فقط حتى الآن – من تطوير شركة جوجل يُمكنه أن يفعل أي شيء قد تتمناه تقريبًا، إذ يعُد هذا النموذج نتاج أكثر من نموذج آخر تم دمجهم معًا ليُلبي مختلف الأغراض وبسرعة مُذهلة. وفقًا لبيان جوجل، فـ Gemini قادرٌ على فهم النصوص المُعقدة، وتحليل الصور والفيديوهات، والتعامل مع الملفات الصوتية، وأي شيء معقد آخر في أي مجالٍ كان؛ فيزياء، رياضيات، كيمياء، ميكانيكا كم، برمجة... لا يُهم، المهم أنه سيبهرك! وإذا كنت تعتقد أن هذا النموذج المبنيّ على نظام LaMDA (نموذج لغوي مبني على تقنيات التعلم العميق) بعيد عن متناولنا، فلحسن الحظ أن هذا ليس صحيحًا.

وفقًا لمجموعة من مقاطع الفيديو التي عرضت من خلالها جوجل أمثلة حية على استخدامات وقدرات Gemini فإن نموذج الذكاء الاصطناعي الجديد قادر على التعرف على النصوص المطبوعة، النصوص المكتوبة بخط اليد، الصوت، الصور والفيديو والتفاعل معهم بصورة حية وكأنك تتعامل مع إنسان. علاوًة على ذلك، حل وتصحيح وشرح الأخطاء في الواجبات المنزلية وشرح العلوم مثل الرياضيات والفيزياء من الصفر، جنبًا إلى جنب البحث والاطلاع على الأبحاث العلمية واستخراج المعلومات المطلوبة بدون إعطاء ردود مؤلفة كما تفعل كافة النماذج المتاحة حاليًا.

كما قدمت الشركة مقارنة توضح تفوق أداء Gemini على كلًا من نماذج ChatGPT و Deepmind Flamingo و Whisper في أغلب الاختبارات. وبخلاف ذلك، يمكن لـ Gemini التعرف على الكود البرمجي للغات مثل ++C و Java و Go و Python كما يمكنه التعامل مع أكثر المشاكل البرمجية تعقيدًا وتوليد الأوامر البرمجية اللازمة لحلها.

ثانيًا: كيف نجرّب Gemini؟

لكلِ أداة ذكاء اصطناعي، مثل ChatGPT، موقعًا إلكترونيًا أو طريقة سهلة للاستخدام، فماذا عن Gemini؟ هنا الوضع مُعقد نوعًا ما، لا لشيء سوى لأننا لا نعرف كافة التفاصيل بعد. فما نعرفه أن هناك 3 إصدارات – سنأتي على ذكرهم لاحقًا – أحدهم مُتاح الآن للاستخدام حصرًا على هواتف Google Pixel 8، وآخرٌ دُمِجَ بأداة Bard ويمكنك ملاحظة ذلك بنفسك إذا دخلت لصفحة التحديثات الرسمية، والتي على حد ما جاء فيها، فإن هذا التحديث الجديد هو الأضخم حتى الآن.

فدمج Bard بأداة Gemini سيعزز من قدرات الأداة التي تعودنا على استخدامها من حيث فهم النصوص المعقدة وتلخيصها، وزيادة قدرات المنطق والتعقّل (Reasoning) والبرمجة، والتخطيط. حتى الآن يتوفّر هذا التحديث بأكثر من 170 دولة، ولكن للنسخة الإنجليزية فقط من Bard، على أن يتوفّر ببقية اللغات والمناطق حول العالم في القريب العاجل.

إذًا، فجوابًا على سؤال: "كيف نُجرّب Gemini؟" ففي الوقت الراهن لا يمكنك أن تُجرّبه كنموذج ذكاء اصطناعي قائم بذاته، وإنما كجزء من أداة Bard أو على هاتف Google Pixel 8، وستتضح الصورة بشكل أكبر في الجزء الآتي الذي سنناقش فيه نماذج أو إصدارات Gemini الثلاثة واستخداماتها.

ثالثًا: إصدارات Gemini المختلفة واستخداماتها

بحسب شركة جوجل، فإن أداة Gemini مرنة وستعمل على جميع الخدمات المُقدَّمة من الشركة (مثل جوجل كروم وإعلانات جوجل)، بل وحتى على الهواتف المحمولة. للإيفاء بهذا الوعد، كان لزامًا على الشركة أن تُقسّم Gemini إلى إصدارات ثلاثة أولها Gemini Nano: وهذا الإصدار المُستخدم في هواتف Google Pixel 8 والمُخصص للاستخدام على جميع الهواتف بشكل عام، والمثير بشأنه أنه لا يحتاج اتصالًا بالإنترنت.

ثانيًا Gemini Pro: وهو الإصدار أو النموذج المُدمَج الآن بأداة Bard، والذي من المفترض أن يمدنا بردود أسرع وحلول أفضل للمسائل المعقدة. أما عن الإصدار الثالث فهو Gemini Ultra، والذي على الرُغم من عدم توفّره حتى الآن، إلا أن جوجل تصفه بالأكثر قدرة لأنه فاق التوقعات في 30 اختبارًا من أصل 32 اختبارًا من اختبارات البنش مارك الأكاديمية لنماذج اللغة الكبيرة LLM، متفوقًا على GPT-4، وهذا ما تفاخرت به جوجل على لسان ديمس هاسابيس، فيمكننا أن نقول إن Gemini، أو على الأقل نسخة Gemini Ultra تتفوق على GPT-4.

وإذا كنت تسعى خلف تفاصيل التفاصيل، فتفوق Gemini على GPT-4 باختبارات البنش مارك كان في عامل التفاعل مع الفيديوهات والصوت، إذ لم تُدرب جوجل نماذج منفصلة على التعامل الفيديوهات والمقاطع الصوتية كما فعلت OpenAI مع DALL-E وWhisper، وإنما بنت نموذجًا مُتعدد الحواس (Multisensory Model) منذ البداية مما تُرجِمَ إلى تفوق واضح لـ Gemini Ultra بسبب كمية البيانات الهائلة التي جمعها.

الجدير بالذكر أن نسخة Gemini Pro ستتوفر لمستخدمي الأعمال "البيزنس" Enterprise Customers إضافة إلى المطورين بدءًا من 13 ديسمبر الجاري على خدمتي Google Generative AI أو Vertix AI (من خدمات جوجل السحابية)، ولكن بالنسبة لإصدار Gemini Ultra، فلن يرى النور قبل العام القادم. وأخيرًا، بالنسبة لمطوري الأندرويد، فالوصول إلى Gemini Nano سيكون من خلال خدمة AI Core الجديدة في النُسخ الأولية للمراجعة.

رابعًا: Gemini يتفوق في الأمان والبرمجة

بعيدًا عن اختبارات البنش مارك وتفوق Gemini على GPT-4 على الورق، يظل الاختبار الحقيقي كامنًا في إرضاء المستخدمين، من حيث كل شيء، وعلى رأس ذلك الأمان والخصوصية. أكدت جوجل أنها عملت باجتهاد لضمان ذلك، كما أشار بيتشاي إلى أن ضمان الأمان والخصوصية هو ما يحقق لهكذا أدوات ربح على مستوى البيزنس.

صحيحٌ أن المؤشرات توحي ببراعة Gemini في كل شيء تقريبًا، ولكن على ما يبدو أن هذه الأداة ستتفرعن في البرمجة تحديدًا، فجوجل استخدمت نظام برمجي جديد – يُسمى AlphaCode 2 – تقول إنه أفضل بنسبة 85% من المنافسين، كما أنه أفضل بنسبة تصل إلى 50% من نظام AlphaCode الأصلي، ولكن مرة أخرى يقول بيتشاي إن المستخدمين سيشعرون بالفرق في كل شيء تقريبًا، وليس في البرمجة فقط.

أخيرًا وليس آخرًا، من المهم أن نعرف أن جوجل درّبت Gemini على وحدات معالجات تينسور الخاصة بها واستطاعت أن تثبت كفاءة منقطة النظير، حيث احتاجت موارد أقل لتشغيله، وبشكل أسرع، من الموارد التي تحتاجها عادةً في الأنظمة السابقة مثل PaLM (المبنية عليه أداة Bard). يتزامن ذلك مع إطلاق جوجل لإصدار جديد من نظام وحدات معالجة تينسور TPU الخاصة بها، TPU v5p، وهو نظام حوسبي جديد مُصمم لتدريب النماذج الكبيرة كما Gemini.

عالم الكمبيوتر