Whisper v3 من OpenAI: حلول متطورة للتعرف على الكلام لتطبيقات الأعمال

Home أخبار الذكاء الاصطناعي Whisper v3 من OpenAI: حلول متطورة للتعرف على الكلام لتطبيقات الأعمال

Updated on أكتوبر 25 2024

مع التقدم الملحوظ في تكنولوجيا التعرف على الكلام، يعزز نموذج Whisper v3 من OpenAI فهم اللغة ويقلل من معدلات الخطأ، مستفيدًا من خمسة ملايين ساعة من بيانات التدريب. تم تصميم هذا النموذج المفتوح المصدر للشركات التي تتطلع لتحسين تجارب خدمة العملاء وما هو أبعد. تم الكشف عن Whisper v3 مؤخرًا في OpenAI DevDay، حيث أظهر أداءً محسنًا عبر عدة لغات، مقدماً رمز لغة مخصص للكانتونية.

أُطلق Whisper لأول مرة في سبتمبر 2022، وقد أثبت كفاءته في تحويل المقاطع الصوتية إلى نصوص، حيث يقدم وظائف لترجمة الكلام، وتحديد اللغة، واكتشاف نشاط الصوت، مما يجعله مناسبًا لمساعدي الصوت. بفضل Whisper، يمكن للشركات نسخ مكالمات العملاء بسهولة أو إنشاء نسخ نصية من المحتوى الصوتي. يتيح دمج Whisper مع نماذج توليد النصوص المتقدمة من OpenAI، مثل GPT-4 Turbo، الفرصة لتطوير تطبيقات ثنائية النمط قوية تجمع بين التعرف على الصوت وتوليد النص بسلاسة.

استعرض رومان هوه، رئيس تجربة المطورين في OpenAI، إمكانيات هذه التكاملات، مُستخدماً Whisper لتحويل المدخلات الصوتية إلى نص، وتمت موازنته مع نموذج GPT-4 Turbo، حيث عرض إنشاء مساعد ذكي يمكنه التحدث، بفضل أيضًا لواجهة برمجة التطبيقات للتحدث من نص.

يتميز Whisper v3 ليس فقط بحجم البيانات التي تم تدريبه عليها—خمسة ملايين ساعة، وهو قفزة كبيرة من 680,000 ساعة في النسخة السابقة—بل أيضًا بأساليب التدريب المتطورة. تم وضع علامة ضعيفة على حوالي مليون ساعة من البيانات الصوتية، مما يعني أنها تشير فقط إلى وجود الصوت، بينما تم وضع علامة زائفة على أربعة ملايين ساعة من خلال تقنيات النمذجة التنبؤية.

يعتمد النموذج على عمارة المحولات (Transformer) التي تعالج تسلسلات الرموز التي تمثل البيانات الصوتية، مما يسمح بفك تشفير المعلومات لاشتقاق نص منطقي. يقوم بكسر المدخلات الصوتية إلى قطع قابلة للإدارة، مما يمكّنه من تحديد المحتوى المنطوق بدقة.

لتلبية الاحتياجات التطبيقية المتنوعة، يتوفر Whisper v3 بأحجام متعددة. أصغر نموذج، Tiny، يحتوي على 39 مليون معلمة ويحتاج إلى حوالي 1 جيجابايت من VRAM للتشغيل. النموذج الأساسي يحتوي على 74 مليون معلمة ويتميز بسرعة معالجة تقارب 16 مرة أسرع من الإصدارات السابقة. النسخة الأكبر، التي تحمل اسم Large، تحتوي على 1.55 مليار معلمة وتتطلب حوالي 10 جيجابايت من VRAM للتنفيذ.

تشير الاختبارات المكثفة على معايير الصوت مثل Common Voice 15 وFleurs إلى أن Whisper v3 يحقق معدلات خطأ أقل بكثير مقارنة بالإصدارات السابقة التي أُصدرت في ديسمبر 2022. وأعرب المدير التنفيذي لشركة OpenAI، سام التمان، عن ثقته في Whisper الجديدة خلال كلمته، مُصرحًا: "نعتقد أنك ستعجب بها حقًا."

كيف يمكنك الوصول إلى Whisper v3؟

Whisper v3 متاحة علنياً عبر منصات مثل Hugging Face أو GitHub، مما يوفر فرصاً للاستخدام التجاري بموجب رخصة MIT. يسمح هذا للشركات بتنفيذ Whisper v3، شريطة الالتزام بالشروط المحددة في الرخصة، بما في ذلك ضرورة تضمين حقوق الطبع والنشر وإشعارات الإذن في جميع النسخ الموزعة.

من المهم ملاحظة أنه بينما تسمح الترخيص بالاستخدام الواسع، إلا أنه لا يحتوي على ضمانات ويحدد المسؤولية للمؤلفين أو مالكي حقوق الطبع والنشر بشأن أي مشاكل قد تنشأ من تطبيقه. على الرغم من أن Whisper مفتوح المصدر، فقد أعلنت OpenAI عن خطط لدعم أحدث إصدار من نموذج التعرف التلقائي على الكلام من خلال واجهة برمجة التطبيقات (API) في المستقبل القريب.

بينما يمثل Whisper v3 قفزة كبيرة في الأداء، تعترف OpenAI بأن دقته قد تنخفض في اللغات ذات البيانات التدريبية المحدودة. بالإضافة إلى ذلك، تستمر التحديات فيما يتعلق باللهجات واللكنات المتنوعة، مما يمكن أن يسهم في زيادة معدلات أخطاء الكلمات.

أوبنAI تقيل المدير التنفيذي سام التمان: ماذا يعني هذا لمستقبل الذكاء الاصطناعي؟

ملخص أخبار الذكاء الاصطناعي: يوتيوب يقدم تسميات للفيديوهات المعدلة بواسطة الذكاء الاصطناعي

Most people like

Theneo

78.7K

ثينيو هو أداة مبتكرة مدفوعة بالذكاء الاصطناعي صُممت لتبسيط عملية توثيق واجهات البرمجة والتكامل، مما يسهل على المطورين الاتصال والتعاون بشكل فعال.

توثيق واجهة برمجة التطبيقات AI API Design

Abby

24.1K

اكتشف معالجك الشخصي المدعوم بالذكاء الاصطناعي على مدار الساعة، والذي يوفر لك دعمًا مستمرًا للصحة النفسية كلما احتجت إليه.

العلاج الذكي AI Chatbot

Formshare

14.7K

في المشهد الرقمي اليوم، يعد القدرة على إنشاء نماذج مخصصة بسرعة أمرًا ضروريًا للشركات. بفضل أدوات الذكاء الاصطناعي المتقدمة، يمكنك تصميم نماذج ذكية بسهولة دون الحاجة إلى معرفة البرمجة. هذه الطريقة سهلة الاستخدام تمكّن الجميع، من رواد الأعمال إلى المسوقين، من تسريع جمع البيانات وتحسين تجارب المستخدمين، مع توفير الوقت والموارد. اكتشف كيف تبسط إنشاء النماذج المدعوم بالذكاء الاصطناعي سير العمل لديك وترتقي بمشاريعك، مما يجعلها متاحة للجميع، بغض النظر عن مستوى المهارة الفنية.

الذكاء الاصطناعي المحادثاتي No-Code&Low-Code

Lenso.ai

293.8K

اكتشف قوة أداة البحث العكسي عن الصور المدعومة بالذكاء الاصطناعي، المصممة لتعزيز تجربتك عبر الإنترنت. سواء كنت تبحث عن مصدر لصورة معينة، أو العثور على دقات أعلى، أو استكشاف صور مشابهة، توفر تقنيتنا المتقدمة نتائج سريعة ودقيقة. مثالية للباحثين والمصممين والمستخدمين العاديين على حد سواء، يمكنك بسهولة فتح كنز من المعلومات المتعلقة بأي صورة. احتضن مستقبل بحث الصور وحوّل طريقة تفاعلك مع المحتوى المرئي اليوم!

بحث عن الصور المعكوسة AI Image Recognition

Find AI tools in YBX