الفكرة العامة لفهم نظام المساعد الصوتي Siri و Cortana



تابع قناة عالم الكمبيوتر علي التيليجرام


تكنولوجيا المساعد الصوتي في الهواتف الذكية او كما يطلقون عليها في الايفون Siri او  Cortana بالطبع معظمنا سمع عن هذه التكنولوجيا ولابد ان هذه التكنولوجيا قد اثارت اعجابك ويوضح لك بُعد اخر للتكنولوجيا قد وصلت اليه ولمن قد شاهد فيلم اجنبي باسم HER سيستوعب كم ان هذه التكنولوجيا قد يكون ليها الاثر الكبير في حياتك ولك ان تعلم ان وراء تكنولوجيا المساعد الصوتي سواء كان Siri او Cortana عمل عظيم ومعقد يستحق التقدير وسيحتاج منا الكثير من التدوينات للاستفاضة فيه ولكن احببت ان امنحكم نظرة خاطفة عن كيفية عمل هذه التكنولوجيا ومعرفة الفكرة العامة لها ولندع التعقيدات والمصطلحات الغريبة عنك للمتختصين فهم اولي بها .. والان ركز معي.



وللتسهيل سنأخذ كمثال خاصية Siri في هواتف الايفون .. فعندما تتحدث الي Siri فان صوتك ومحادثتك تلك يتم تكويدها في الحال علي شكل حزمة رقمية Compact Digital Form و التي تحافظ علي هذه المعلومات داخلها محولة بذلك صوتك الي معلومات رقمية ذات 0 و 1.
  • تلك الاشارة الرقمية في جهازك المتصل بالشبكة يتم ترحيلها لاسلكيا خلال اقرب برج هاتف لك Cell Tower مرورا بسلسلة من الخطوط الارضية الي مزود خدمة الانترنت الخاص بك ISP ومنه الي خادم علي السحابة الخاصة بالشبكة The Cloud.
  • يتم تحميل هذه الاشارة الرقمية بسلسلة من  النماذج التي خصصت لفهم مفردات اللغة التي تحدثت بها وبشكل متزامن يتم تقسيم كلامك علي الجهاز الخاص بك.
  • يوجد علي هاتفك Recognizer ليتصل بالـ Cloud و يتعرف علي ما اذا علي ما كان الامر الذي ادخلته بصوتك يمكن التعامل معه وتنفيذه علي الهاتف نفسه ام يحتاج الي الاتصال بالشبكة.
  • هذا بالضبط كما لو انك طلبت منه تشغيل اغنية علي هاتفك فهذه المهمة يستطيع تنفيذها بسهولة علي هاتفك فهذه تعتبر مهمة محلية بعكس ما اذا طلبت منه ان يحجز لك في مطعم ما او بحث عن شئ ففي هذه الحالة يتعرف علي انه يجب ان يتصل بالشبكة وفي حالة ما اذا تعرف The Local Recognizer علي ان الامر داخل جهازك ولا يوجد داعي لاستخدام الـ cloud فانه ينبهه انه لا يحتاجه هذه المرة ولا يقوم بالاتصال به.
  • عند وصول صوتك الي السيرفر فانه يقارن صوتك ضمن نظام احصائي مهمته تقدير صوتك والتعرف علي المفردات التي اطلقها صوتك والاوامر التي صنعتها و الحروف التي تتكون منها هذه الاصوات.
  • و في نفس الوقت يقوم The Local Recognizer بمقارنة نفس الاصوات في نسخة موجزة من هذا النظام الاحصائي لتسهيل العملية وكسب الوقت وبالنسبة لكلا النظامين فان اعلي نسبة احتمالية لنظام منهم يتم العمل منه والانطلاق من خلاله.
  • محادثتك الان يتم فهمها كسلسلة من الحروف المتحركة والساكنة التي يتم تمريرها علي مستكشف ومحلل للغة والذي يقوم بتقدير الكلمات التي تحدثتها.
  • النظام بعد ذلك ينشأ قائمة منتخبة من الترجمات لمحادثتك والتي من الممكن ان يعنيه تسلسل كلماتك.
  • وفي حالة ما اذا كان هناك ثقة كافية في هذه النتيجة التي استنبضها النظام فان النظام يحدد المهمة بالضبط التي عليه تنفيذها واذا ما كانت نيتك مثلا ان ترسل رسالة نصية الي احمد حسين علي سبيل المثال فيقوم الجهاز لذلك بتجهيز اسم " احمد حسين " من قائمة الاسماء الخاصة بك ثم بعد ذلك تقوم بكتابة الرسالة التي تود ارسالها و كالسحر تجد ان رسالتك تظهر علي الشاشة بلا اي يد يمكن ان تحتاجها او اي مجهود اضافي سوي صوتك و اذا كان هناك اي نقطة مبهمة خلال هذه  المهمة فان الجهاز سيرجع اليك عند تلك النقطة ويسألك مثلا هل كنت تقصد احمد حسين  ام احمد حسن؟!

لم اقصد ان اطيل ولم اقصد ان ادخل في تفاصيل كثيرة او ان اقوم بتعقيدالامر لك بل احببت ان تصل اليكم الفكرة العامة ببساطة فاتمني ان تكون قد وصلت بالفعل.

تعليقات