Whisper v3 من OpenAI: حلول متطورة للتعرف على الكلام لتطبيقات الأعمال

مع التقدم الملحوظ في تكنولوجيا التعرف على الكلام، يعزز نموذج Whisper v3 من OpenAI فهم اللغة ويقلل من معدلات الخطأ، مستفيدًا من خمسة ملايين ساعة من بيانات التدريب. تم تصميم هذا النموذج المفتوح المصدر للشركات التي تتطلع لتحسين تجارب خدمة العملاء وما هو أبعد. تم الكشف عن Whisper v3 مؤخرًا في OpenAI DevDay، حيث أظهر أداءً محسنًا عبر عدة لغات، مقدماً رمز لغة مخصص للكانتونية.

أُطلق Whisper لأول مرة في سبتمبر 2022، وقد أثبت كفاءته في تحويل المقاطع الصوتية إلى نصوص، حيث يقدم وظائف لترجمة الكلام، وتحديد اللغة، واكتشاف نشاط الصوت، مما يجعله مناسبًا لمساعدي الصوت. بفضل Whisper، يمكن للشركات نسخ مكالمات العملاء بسهولة أو إنشاء نسخ نصية من المحتوى الصوتي. يتيح دمج Whisper مع نماذج توليد النصوص المتقدمة من OpenAI، مثل GPT-4 Turbo، الفرصة لتطوير تطبيقات ثنائية النمط قوية تجمع بين التعرف على الصوت وتوليد النص بسلاسة.

استعرض رومان هوه، رئيس تجربة المطورين في OpenAI، إمكانيات هذه التكاملات، مُستخدماً Whisper لتحويل المدخلات الصوتية إلى نص، وتمت موازنته مع نموذج GPT-4 Turbo، حيث عرض إنشاء مساعد ذكي يمكنه التحدث، بفضل أيضًا لواجهة برمجة التطبيقات للتحدث من نص.

يتميز Whisper v3 ليس فقط بحجم البيانات التي تم تدريبه عليها—خمسة ملايين ساعة، وهو قفزة كبيرة من 680,000 ساعة في النسخة السابقة—بل أيضًا بأساليب التدريب المتطورة. تم وضع علامة ضعيفة على حوالي مليون ساعة من البيانات الصوتية، مما يعني أنها تشير فقط إلى وجود الصوت، بينما تم وضع علامة زائفة على أربعة ملايين ساعة من خلال تقنيات النمذجة التنبؤية.

يعتمد النموذج على عمارة المحولات (Transformer) التي تعالج تسلسلات الرموز التي تمثل البيانات الصوتية، مما يسمح بفك تشفير المعلومات لاشتقاق نص منطقي. يقوم بكسر المدخلات الصوتية إلى قطع قابلة للإدارة، مما يمكّنه من تحديد المحتوى المنطوق بدقة.

لتلبية الاحتياجات التطبيقية المتنوعة، يتوفر Whisper v3 بأحجام متعددة. أصغر نموذج، Tiny، يحتوي على 39 مليون معلمة ويحتاج إلى حوالي 1 جيجابايت من VRAM للتشغيل. النموذج الأساسي يحتوي على 74 مليون معلمة ويتميز بسرعة معالجة تقارب 16 مرة أسرع من الإصدارات السابقة. النسخة الأكبر، التي تحمل اسم Large، تحتوي على 1.55 مليار معلمة وتتطلب حوالي 10 جيجابايت من VRAM للتنفيذ.

تشير الاختبارات المكثفة على معايير الصوت مثل Common Voice 15 وFleurs إلى أن Whisper v3 يحقق معدلات خطأ أقل بكثير مقارنة بالإصدارات السابقة التي أُصدرت في ديسمبر 2022. وأعرب المدير التنفيذي لشركة OpenAI، سام التمان، عن ثقته في Whisper الجديدة خلال كلمته، مُصرحًا: "نعتقد أنك ستعجب بها حقًا."

كيف يمكنك الوصول إلى Whisper v3؟

Whisper v3 متاحة علنياً عبر منصات مثل Hugging Face أو GitHub، مما يوفر فرصاً للاستخدام التجاري بموجب رخصة MIT. يسمح هذا للشركات بتنفيذ Whisper v3، شريطة الالتزام بالشروط المحددة في الرخصة، بما في ذلك ضرورة تضمين حقوق الطبع والنشر وإشعارات الإذن في جميع النسخ الموزعة.

من المهم ملاحظة أنه بينما تسمح الترخيص بالاستخدام الواسع، إلا أنه لا يحتوي على ضمانات ويحدد المسؤولية للمؤلفين أو مالكي حقوق الطبع والنشر بشأن أي مشاكل قد تنشأ من تطبيقه. على الرغم من أن Whisper مفتوح المصدر، فقد أعلنت OpenAI عن خطط لدعم أحدث إصدار من نموذج التعرف التلقائي على الكلام من خلال واجهة برمجة التطبيقات (API) في المستقبل القريب.

بينما يمثل Whisper v3 قفزة كبيرة في الأداء، تعترف OpenAI بأن دقته قد تنخفض في اللغات ذات البيانات التدريبية المحدودة. بالإضافة إلى ذلك، تستمر التحديات فيما يتعلق باللهجات واللكنات المتنوعة، مما يمكن أن يسهم في زيادة معدلات أخطاء الكلمات.

Most people like

Find AI tools in YBX