aiOla تطلق Whisper-Medusa: نموذج ثوري لتعرف الكلام
كشف ستارتاب الذكاء الاصطناعي الإسرائيلي aiOla اليوم عن Whisper-Medusa، نموذج جديد مفتوح المصدر لتعرف الكلام يعمل بسرعة تزيد عن 50% مقارنة بـ Whisper الشهير من OpenAI.
يعتمد Whisper-Medusa على هيكلية جديدة تُعرف بـ “المattention متعدد الرؤوس”، مما يمكّنه من توقع عدة رموز في وقت واحد، مما يعزز سرعته بشكل كبير. يتوفر كود النموذج ووزنه على Hugging Face تحت رخصة MIT، مما يدعم الأبحاث والتطبيقات التجارية على حد سواء.
من خلال جعل هذه الحلول مفتوحة المصدر، تشجع aiOla على الابتكار والتعاون ضمن مجتمع الذكاء الاصطناعي. قال جيل هيتز، نائب رئيس الأبحاث في aiOla: “هذا يمكن أن يؤدي إلى تحسينات أسرع، حيث يمكن للمطورين والباحثين البناء على جهودنا.” هذه التطورات قد تمهد الطريق لأنظمة ذكاء اصطناعي تفهم وتستجيب لاستفسارات المستخدمين في الوقت شبه الحقيقي.
ما الذي يميز Whisper-Medusa؟
مع زيادة تنوع المحتوى الذي تنتجه النماذج الأساسية، تبقى أهمية تقنيات تعرف الكلام المتقدمة حيوية. هذه التكنولوجيا أساسية عبر عدة قطاعات، مثل الرعاية الصحية والمالية، حيث تسهل مهام مثل النسخ وتحسين أنظمة الذكاء الاصطناعي متعددة الوسائط. حول OpenAI العام الماضي صوت المستخدمين إلى نصوص ليتم معالجتها بواسطة نماذج اللغة الكبيرة (LLMs)، التي كانت ترد بعد ذلك بأجوبة منطوقة.
أصبح Whisper معيارًا ذهبيًا في تعرف الكلام، حيث يعالج أنماط الكلام المعقدة واللهجات في الوقت شبه الحقيقي. مع أكثر من 5 ملايين تحميل شهري، يدعم عشرات الآلاف من التطبيقات.
الآن، تدعي aiOla أن Whisper-Medusa يحقق سرعات أعلى في تعرف الكلام والنسخ. من خلال تعزيز هيكل Whisper بآلية attention متعددة الرؤوس، يمكن للنموذج توقع عشر رموز في كل تمريرة، بدلاً من واحدة، مما يؤدي إلى زيادة تبلغ 50% في سرعة التوقع وكفاءة وقت التشغيل.
Whisper-Medusa من aiOla مقابل Whisper من OpenAI
رغم زيادة السرعة، يحافظ Whisper-Medusa على نفس مستوى الدقة كالنسخة الأصلية من النموذج بفضل هيكله الأساسي. صرح هيتز: “نحن الأوائل في الصناعة الذين يطبقون هذا النهج على نموذج تعرف الكلام التلقائي (ASR) ويطلقونه للأبحاث العامة.”
“تحسين سرعة نماذج اللغة الكبيرة أسهل من تحسين أنظمة تعرف الكلام. تتسبب تعقيدات إشارات الصوت المستمرة والضجيج في تحديات فريدة. من خلال نهجنا متعدد الرؤوس، قمنا تقريبًا بتكريس سرعة التوقع دون التضحية بالدقة.”
منهجية تدريب Whisper-Medusa
استخدمت aiOla تقنية التعلم الآلي تحت الإشراف الضعيف لتدريب Whisper-Medusa. من خلال تجميد المكونات الرئيسية لـ Whisper، استخدمت النسخ الصوتية التي تم إنشاؤها بواسطة النموذج نفسه كملصقات لتدريب وحدات توقّع إضافية.
وأشار هيتز إلى أنهم بدأوا بنموذج 10 رؤوس ويخططون للتوسع إلى نسخة 20 رأسًا قادرة على توقع 20 رمزًا في وقت واحد، مما يؤدي إلى تعرف أسرع ونسخ أكثر كفاءة دون التأثير على الدقة. “تتيح هذه الطريقة معالجة الصوت بالكامل مرة واحدة، مما يقلل الحاجة إلى عدة تمريرات ويعزز السرعة.”
بينما كان هيتز حذرًا بشأن الوصول المبكر لشركات معينة، أكد أنه تم اختبار حالات استخدام حقيقية للبيانات المؤسسية للتحقق من الأداء في التطبيقات الواقعية. من المتوقع أن يسهل تحسين سرعات التعرف والنسخ استجابة أسرع في تطبيقات الكلام. تخيل مساعدًا ذكيًا مثل Alexa يقدم إجابات في ثوانٍ.
“ستستفيد الصناعة بشكل كبير من أنظمة التعرف على الصوت إلى نص في الوقت الحقيقي، مما يعزز الإنتاجية، ويقلل التكاليف، ويسرع تسليم المحتوى.” ختتم هيتز.