أطلقت مزود خدمات الذكاء الاصطناعي Assembly AI أحدث نموذج لها للتعرف على الكلام، Universal-1. تم تدريب هذا النموذج على أكثر من 12.5 مليون ساعة من البيانات الصوتية متعددة اللغات، ويحقق دقة ملحوظة في تحويل الكلام إلى نص باللغات الإنجليزية، الإسبانية، الفرنسية، والألمانية. وتؤكد الشركة أن Universal-1 يقلل من نسبة الأخطاء في البيانات الصوتية بنسبة 30%، وبنسبة 90% عند التعامل مع الضوضاء المحيطة، مقارنةً بنموذج Whisper Large-v3 من OpenAI.
وفي منشور مدونة حديث، وصفت Assembly AI Universal-1 بأنه خطوة مهمة نحو تحقيق هدفها في تقديم قدرات تحويل الكلام إلى نص دقيقة وموثوقة وقوية عبر عدة لغات. يستطيع النموذج التعامل مع تحويل اللغات بشكل فعال، حيث يمكنه كتابة نصوص متعددة اللغات ضمن ملف صوتي واحد.
يتفوق Universal-1 في تحسين تقدير التوقيت، وهو ما يعد حرجًا في تحرير الصوت والفيديو وكذلك في تحليل المحادثات. يتجاوز أداءه سلفه Conformer-2 بنسبة 13%، مع تحسن في دقة توثيق المتحدثين ونسبة خطأ الكلمات المجمعة (cpWER) تبلغ 14%. كما ارتفعت دقة تقدير عدد المتحدثين إلى 71%.
يتميز النموذج أيضًا بتقنية استدلال متوازي محسّنة، مما يقلل بشكل كبير من وقت المعالجة للملفات الصوتية الطويلة. حيث يقوم Universal-1 بتحويل ساعة من الصوت إلى نص في 21 ثانية فقط على أجهزة Nvidia Tesla T4، أي أسرع بخمس مرات من Whisper Large-v3، الذي يستغرق 107 ثوانٍ لأداء نفس المهمة مع حجم دفعة أصغر.
توفر نماذج الذكاء الاصطناعي المتقدمة لتحويل الكلام إلى نص العديد من الفوائد، بما في ذلك إنتاج ملاحظات أكثر دقة وموثوقية، وتحديد العناصر الواجب القيام بها، وترتيب البيانات الوصفية مثل الأسماء الصحيحة، وتعرف المتحدثين، والتوقيت. ستساعد هذه التحسينات في تطبيقات متنوعة، بدءًا من تحرير الفيديو المدعوم بالذكاء الاصطناعي إلى منصات الرعاية الصحية عن بُعد التي تتطلب إدخال ملاحظات سريرية دقيقة وتقديم المطالبات.
النموذج Universal-1 متاح الآن عبر واجهة برمجة تطبيقات Assembly AI.