تُعَدّ تقنية التعرف على الصوت مكونًا حيويًا في أنظمة الذكاء الاصطناعي متعددة الوسائط. على الرغم من حماس العديد من الشركات لتبني هذه التكنولوجيا، فإن التحديات لا تزال قائمة، خاصة في تفسير المصطلحات المتخصصة بشكل دقيق. وقد حققت شركة aiOla، وهي شركة ناشئة مبتكرة من إسرائيل، تقدمًا ملحوظًا في معالجة هذه المسألة. حيث قدمت الشركة نهجًا جديدًا يهدف إلى مساعدة نماذج التعرف على الصوت في فهم المفردات المتخصصة المخصصة لصناعات معينة.
تُعزز هذه التطورات دقة واستجابة أنظمة التعرف على الصوت، مما يجعلها أكثر فاعلية في بيئات العمل المعقدة، حتى تحت الظروف الصوتية الصعبة. في دراستها الأولية، قامت aiOla بتكييف نموذج Whisper من OpenAI، مما أسفر عن تقليل معدل الخطأ في الكلمات وزيادة دقة الكشف بشكل عام.
تحديات المصطلحات الخاصة في التعرف على الصوت
خلال السنوات الأخيرة، ساهمت التقدمات في التعلم العميق في ظهور أنظمة التعرف على الصوت الآلي (ASR) وأنظمة النسخ النصي عالية الأداء. وقد حظيت Whisper من OpenAI باهتمام كبير بسبب قوتها ودقتها على مستوى أداء البشر في التعرف على اللغة الإنجليزية. ومع ذلك، منذ إطلاقها في 2022، لاحظ الكثيرون أن أداء Whisper يمكن أن يتأثر في السيناريوهات الواقعية، حيث تتعقد عملية التفسير الدقيق للصوت في البيئات الصاخبة. على سبيل المثال، يكون من الصعب فهم تنبيهات السلامة وسط ضجيج الآلات الثقيلة أو فهم الأوامر المحملة بالمصطلحات المتخصصة في مجالات مثل الطب أو القانون.
تعمل المؤسسات التي تستخدم نماذج ASR المتطورة، مثل Whisper، غالبًا على تخصيص أنظمتها لتلبية احتياجات صناعية محددة. على الرغم من أن هذا التخصيص يمكن أن يحسن الأداء، إلا أنه غالبًا ما يأتي بتكاليف مرتفعة من حيث الوقت والموارد المالية.
يقول غيل هيتز، نائب الرئيس للبحث في aiOla: "يستغرق تخصيص نماذج ASR أيامًا وآلاف الدولارات - وهذا إذا كانت البيانات متاحة بالفعل. وإذا لم تكن متاحة، فإن جمع وتسمية البيانات الصوتية قد يستغرق شهورًا ويكلف عشرات الآلاف من الدولارات."
لمواجهة هذه التحديات، طورت aiOla نهجًا من خطوتين يُسمى "تحيّز سياقي." أولاً، يتعرف نموذج AdaKWS لتحديد الكلمات الرئيسية على المصطلحات المتخصصة من عينات الصوت. بعد ذلك، تُساعد الكلمات الرئيسية المحددة في توجيه وحدة فك الشفرات ASR لعكس المصطلحات في نص النسخ النهائي، مما يعزز قدرة النموذج على التعرف على اللغة المتخصصة بفاعلية.
في الاختبارات الأولية، استخدمت aiOla نموذج Whisper وجربت تقنيتين لتحسين الأداء: KG-Whisper (Whisper الموجه بالكلمات الرئيسية) وKG-Whisper-PT (تنسيق التوجيه). أظهرت كلتا التكيفات أداءً محسنًا مقارنة بالنموذج الأصلي Whisper عبر مجموعات بيانات متنوعة، حتى في بيئات صوتية معقدة.
يقول هيتز: "نموذجنا الجديد (KG-Whisper-PT) يقلل بشكل كبير من معدل الخطأ في الكلمات (WER) ويزيد من الدقة (درجة F1). في الاختبارات على مجموعة بيانات طبية، حقق درجة F1 بلغت 96.58، مقارنةً بـ80.50 لنموذج Whisper، ومعدل WER بلغ 6.15 مقابل 7.33 لنموذج Whisper."
من المهم أن هذه الطريقة متوافقة مع نماذج ASR المختلفة. بينما استخدمت aiOla نموذج Whisper، يمكن تطبيق نفس النهج على MMS من Meta وغيرها من النماذج الخاصة بالتعرف على الصوت، مما يمكّن الشركات من إنشاء نظام تعريف مخصص دون الحاجة إلى إعادة التدريب. يكفي ببساطة تقديم قائمة بالمصطلحات المتخصصة لسماعة الكلمات الرئيسية.
يوضح هيتز: "يمكّن هذا النموذج من تحسين قدرات ASR بشكل كامل بدقة عالية في تحديد المصطلحات الخاصة. يتيح لنا التكيف بسرعة مع صناعات مختلفة عن طريق تغيير مفردات المصطلحات فقط دون الحاجة إلى إعادة تدريب النظام بالكامل. في الأساس، هو نموذج صفر-ضرب، قادر على التنبؤ دون أن يرى أمثلة محددة خلال التدريب."
فوائد توفير الوقت لشركات فورتشن 500
مع قدرته على التكيف، يمكن أن يستفيد نهج aiOla مجموعة واسعة من الصناعات ذات المصطلحات التقنية، بما في ذلك الطيران والنقل والتصنيع واللوجستيات. بدأت الشركة في نشر نموذجها القابل للتكيف مع عملاء فورتشن 500، مما يحسن بشكل كبير من كفاءتهم في إدارة العمليات المعتمدة على المصطلحات المعقدة.
على سبيل المثال، استخدم زعيم الشحن والخدمات اللوجستية العالمي من فورتشن 50 نموذج aiOla لأتمتة عمليات التفتيش اليومية على الشاحنات، مقللًا كل تفتيش من حوالي 15 دقيقة إلى أقل من 60 ثانية. وبالمثل، استخدمت إحدى سلاسل البقالة الرائدة في كندا النموذج لمراقبة درجات حرارة المنتجات واللحوم، مما أدى إلى توقع توفير 110,000 ساعة سنويًا، وأكثر من 2.5 مليون دولار في التوفير المتوقع، وعائد استثمار 5 مرات.
قدمت aiOla أبحاثها آملةً في إلهام مزيد من التقدم في الذكاء الاصطناعي من قبل فرق بحث أخرى. ومع ذلك، فإن الشركة لا تقدم حاليًا وصولًا إلى واجهة برمجة التطبيقات للنموذج المتكيف أو الإفراج عن أوزانه. يمكن للمؤسسات الوصول إلى هذه التكنولوجيا حصريًا من خلال مجموعة منتجات aiOla المعتمدة على الاشتراك.