كيف تتقن نماذج اللغة الكبيرة (LLMs) التمييز بين الأصوات المكانية

السمع الثنائي الأذن وأهميته في الذكاء الاصطناعي

يمتلك البشر قدرات حسية استثنائية، أبرزها السمع الثنائي الأذن، الذي يمكننا من تحديد أنواع الأصوات، تحديد اتجاهها، وتقدير مسافتها. نستطيع حتى تمييز مصادر صوتية متعددة تحدث في نفس الوقت.

على الرغم من أن النماذج اللغوية الكبيرة (LLMs) تبرع في الإجابة عن الأسئلة الصوتية، تعرف الكلام، الترجمة، والتركيب، إلا أنها تعاني في الوقت الحالي من التعامل مع مدخلات الصوت المكاني في العالم الحقيقي.

Introducing BAT: إنجاز في النماذج اللغوية المكانية

حقق الباحثون خطوات مهمة مع BAT، الذي يُعتبر أول نموذج LLM معتمد على الصوت المكاني قادر على التفكير في الأصوات في بيئة ثلاثية الأبعاد. يتميز هذا النموذج بتصنيف أنواع الصوت المختلفة (مثل الضحك، دقات القلب، أو صوت المياه المتناثرة)، وتحديد اتجاه الصوت (يمين، يسار، أسفل) وتقدير المسافات (من 1 إلى 10 أقدام). يُظهر BAT قدرة قوية على التفكير المكاني، خاصة في السيناريوهات المعقدة التي تحتوي على أصوات متداخلة.

وفقًا للباحثين، "إن دمج الصوت المكاني في LLMs يمثل تقدمًا كبيرًا نحو أنظمة الذكاء الاصطناعي متعددة الوسائط الحقيقية."

تحديات الصوت المكاني في الذكاء الاصطناعي وتعلم الآلة

يخلق الصوت المكاني، الذي يُسمى غالبًا "الصوت المحيطي الافتراضي"، إدراكًا لمصادر الصوت في فضاء ثلاثي الأبعاد، مما يعزز التجارب في الواقع الافتراضي والأنظمة المسرحية المتقدمة والتقنيات الناشئة مثل الميتافيرس. ومع ذلك، فإن تحديد وتفسير مصادر الصوت في البيئات ثلاثية الأبعاد يمثل تحديًا كبيرًا للذكاء الاصطناعي وتعلم الآلة.

على الرغم من تقدم تقنيات المحاكاة الصوتية، يشير مطورو BAT إلى أن التطبيقات الحالية غالبًا ما تفتقر إلى الاتساق و"تسميات الحقيقة الأرضية الحاسمة"، مثل مسافة المصدر والاتجاه. بالإضافة إلى ذلك، يميل تحديد المواقع واكتشاف الأحداث الصوتية إلى التركيز على "إدراك الصوت المكاني الضحل".

تشمل التطبيقات الملحوظة الأخرى AudioGPT، الذي يدمج ChatGPT لتطبيقات صوتية متنوعة؛ LTU، الذي يمكّن النماذج من تحليل الأصوات داخل المقاطع؛ وQwen-audio، المصمم لفهم الصوت بشكل عالمي. ومع ذلك، لا يستطيع أي من هذه النماذج إدراك والتفكير في الصوت المكاني في بيئات ثلاثية الأبعاد ديناميكية ومعقدة.

قدرات BAT الاستثنائية

يتميز BAT بقدراته على التفكير المكاني، حيث يحقق معدل دقة مثير للإعجاب بلغ نحو 77%. وصلت دقة المحدد الصوتي المكاني إلى متوسط دقة يزيد عن 50% في تحديد نوع الصوت، ومتوسط خطأ زاوي يبلغ حوالي 18 درجة لتحديد اتجاه الصوت، ومعدل خطأ في المسافة يصل إلى 1.64 قدم بدقة 32.54% في تقدير المسافة.

تألف الفريق البحثي من خبراء من جامعة تكساس وجامعة شانغهاي جياو تونغ، الذين طوروا محول الطيف الصوتي المكاني (SPATIAL-AST) لاكتشاف أحداث الصوت، والتحديد المكاني، وإدراك المسافة، بالإضافة إلى SPATIALSOUNDQA لمهام أسئلة وأجوبة مكاني. ثم تم دمج SPATIAL-AST مع نموذج LLaMA-2 لإنشاء BAT.

اختبار BAT: نوع الصوت، الاتجاه، والمسافة

أسئلة نوع الصوت:

س: ما هي أحداث الصوت التي يمكنك اكتشافها في التسجيل؟

ج: ضحك طفل.

س: حدد الأصوات المميزة في مقطع الصوت.

ج: دقات القلب.

س: ما الأصوات الموجودة على بعد حوالي 9 أقدام؟

ج: تناثر الماء؛ الكلام.

س: ما الأصوات القادمة من اليسار، من الخلف، ومن الأعلى؟

ج: موسيقى؛ آلة موسيقية؛ طاسة فولاذية.

أسئلة الاتجاه والمسافة:

س: من أي اتجاه تأتي أصوات القلب؟

ج: من اليسار، من الخلف، من الأسفل؛ على بعد 3 أقدام.

س: من أين تأتي الموسيقى؟

ج: من اليسار، من الخلف، من الأسفل؛ على بعد 10 أقدام.

أسئلة التفكير المكاني:

س: هل الصوت المرتجف أقرب من صوت طيران الطيور؟

ج: لا.

س: هل أصوات الانفجار والكلام على اليسار؟

ج: نعم.

س: هل يحدث صوت ماكينة حلاقة كهربائية خلف الشلال؟

ج: نعم.

س: قدر المسافة من صوت الكلام إلى صوت الكلب.

ج: 1.64 قدم.

س: ما الصوت الموجود فوق الاهتزاز؟

ج: صياح؛ ضفدع.

س: هل صوت الغناء على اليسار أم اليمين من صوت البخار؟

ج: اليسار.

كما يشير الباحثون، "تتطلب هذه المهمة كل من الإدراك والتفكير المعقد." يجب على النموذج فصل مصادر الصوت حسب النوع، وتحديد الموقع المكاني لكل مصدر، وتحليل علاقاتها في السياق.

توسيع آفاق الصوت المكاني

تقدم النماذج اللغوية الكبيرة القادرة على فهم الصوت المكاني إمكانيات هائلة في مجالات مثل الواقع الافتراضي، الألعاب، وهندسة الصوت. "يمكن أن يؤدي هذا إلى تجارب أكثر غمرًا وواقعية"، يؤكد الباحثون.

علاوة على ذلك، يمكن أن تعزز القدرة على تفسير الصوت المكاني أنظمة الذكاء الاصطناعي المتجسدة مثل الروبوتات والمركبات الذاتية القيادة. قد تعزز التطورات المستقبلية في الصوت المحيطي هذه التجارب، مما يجعلها أكثر واقعية.

يخلص الباحثون بثقة إلى أن BAT سيعزز بشكل كبير إدراك الصوت المكاني والتفكير، مما يسهم في تطور النماذج اللغوية متعددة الوسائط.

Most people like

Find AI tools in YBX