إليك التقنية التي تستخدمها تطبيقات التعرف على الموسيقى مثل "Shazam"



تابع قناة عالم الكمبيوتر علي التيليجرام


حسب دراسات فأن تطبيق التعرف على الموسيقى "Shazam" استطاع تحديد أكثر من خمسين مليار أغنية منذ بدايته عام 1999، من جهة المستخدم فالأمر بسيط للغاية فقط أفتح التطبيق والسماح لهاتفك بالاستماع إلى الأغنية بعد ثواني معدودة بالرغم من وجود ضوضاء وتشويش يخبرك التطبيق ما هي الأغنية حيث تعمل هذه التطبيقات بسرعة وبشكل جيد كما لو كان سحر، لكن معظم الأشياء السحرية في عالمنا التي تسهل عملية الاستخدام قد بنيت عن طريق مجموعة من الخوارزميات نحن بصدد التعرف عليها الآن.


ما الفكرة من هذه التطبيقات ؟ 


تعمل كل من Shazam و Soundhound وغيرها من خدمات التعرف على الموسيقى بنفس الطريقة : فهي تحتوي على قاعدة بيانات ضخمة لمجموعة كبيرة من الأغاني ، وتمتلك خوارزمية يمكنها استخراج المعلومات بسرعة بمجرد سماع الأغنية ، كان Shazam في الأصل قابل للاستخدام على الهواتف المحمولة القديمة من خلال تسجيل أغنية وإرسالها إلى الخدمة ومن ثم يأتي الرد.


كيف تعمل هذه التطبيقات ؟ 


تحتوي قاعدة بيانات التطبيق على مجموعة ضخمة من "البصمات الصوتية" للأغنية أو أجزاء صغيرة من البيانات حول أنماط الصوت الفريدة للأغنية. عندما يقوم أحد المستخدمين بالضغط على زر "التسجيل" ، يستمع التطبيق إلى الموسيقى وينشئ بصمة استنادًا إلى الصوت الذي يسمعه في بضع ثوان. يتم فحص هذه البصمة مقابل قاعدة بيانات البصمات الموجودة لديهم مسبقاً. إذا كانت البصمة التي تبلغ مدتها 10 ثوان مطابقة لجزء من أغنية ، فستحصل أغنية (نأمل أن تكون صحيحة). إذا لم يكن الأمر كذلك، فستظهر لك رسالة خطأ. تعمل جميع هذه التطبيقات بهذه الآلية البسيطة لكن الجزء المثير للاهتمام هو كيف تحصل على بصمة صوت ! ؟

ما هي بصمة الصوت ؟ 


يبدأ كل شيء برسم طيفي ، مثل الصورة في الرسم البياني أعلاه ، مأخوذة من ورقة كتبها أحد مؤسسي Shazam ، Avery Wang. بعيداً عن التعقيدات يعتمد الأمر ببساطة عن طريق برامج أو اجهزة مختصة بهذا المجال على التخلص من معظم الأجزاء ذات الصوت المنخفض في الأغنية والتركيز على الترددات الصوتية العالية وإدراجها ضمن مخطط تفصيلي على شكل عامودي وافقي وارقام معينة بهدف التحقق والبحث السريع للحصول على نتائج أفضل وأسرع، الأمر ينطبق تماماً مثل لو أنك تريد معرفة أطول برج في مدينتك هل ستنظر للطوابق الوسطى أو السفلى أم للطوابق العليا والقمم الواضحة أمام ناظريك ؟ لذلك يتم تجريد كل أغنية أو مقطع صوتي من جميع ثوانيه إلى عدد قليل من نقاط البيانات الأكثر كثافة وفائدة، ولكن لا يزال الأمر غير فعال بما يكفي ليكون قابلاً للبحث عنه على الفور ، وبالتالي فإن الخطوة التالية هي "تجزئة" هذا التسلسل من القمم الصوتية.


التجزئة ببساطة مجموعة من المدخلات ، يمكن إدارتها من خلال خوارزمية معينة ، ينتج عنها مخرجات صحيحة. حيث يتم إنشاء التجزئة عن طريق أخذ اثنين من قمم عالية الكثافة ، وقياس الوقت بينهما ، وإضافة تردداتهم معاً. والنتيجة هي سلسلة من الأرقام ، يمكن تخزينها بسهولة ويمكن البحث عنها. عندما يقرأ الكمبيوتر هذه التجزئة ، سوف يتعرف عليها على أنها تمثل التردد والمسافة الزمنية.

بمجرد تحديد جميع القمم في الأغنية وتجميعها ، يكتمل التحويل : تحتوي الأغنية الآن على رقم فريد من نوعه 32 بت يعمل كمعرف في قاعدة البيانات. الأهم من ذلك ، كل ثانية في الأغنية يمثلها رقم. عندما يستمع هاتفك إلى الموسيقى ، فإنه يمر عبر هذه العملية الدقيقة : فهو يرشح كل شيء ما عدا أعلى النقاط ، ويستبدلها ، وينشئ بصمة لبضع ثوانٍ سجلها. عند اكتمال ذلك ، يحتاج هاتفك فقط لمعرفة مكان ظهور السلاسل المقابلة من الأرقام في قاعدة البيانات ، مما يسمح له بمطابقة الترددات المكتشفة والتوقيت للأغنية الصحيحة وإعادتها إليك في ثوانٍ.

الأمر يتعلق بالموسيقى بل وأكثر من ذلك 


تم استخدام هذه التقنية على نطاق واسع في التعرف على الموسيقى ، ولكن تطبيقات التعرف على الصوت يمكن أن تعمل أيضًا مع الأفلام والإعلانات التجارية والبرامج التلفزيونية وحتى أجهزة الموبايل وغير ذلك الكثير. التطبيقات الأكثر شهرة هو Shazam و Soundhound ، ولكن يمكنك الآن مطالبة Google بتشغيل الأغنية والحصول على استجابة دقيقة. وإذا كنت تتساءل : "هل تتعقب هذه الشركات الأغاني التي يتم طرحها؟" الإجابة هي "نعم". لقد تمكنت إحصاءات تحديد الموسيقى من التنبؤ بنجاح الأغاني والفنانين بمستوى عالٍ من الدقة وتعاقدت شركات التسجيلات الكبيرة مثل Warner مع تطبيقات مثل Shazam للمساعدة في العثور على الفنانين الواعدين. لذا ، إذا كنت تريد دعم فنان ، يمكنك أيضًا القيام بدورك والبحث عن أغنيته !

تعليقات