أعلن فريق "تونغي تشيان وين" التابع لشركة علي بابا مؤخرًا عن الإصدار المفتوح لمجموعته الجديدة من نماذج اللغة الصوتية، "كوين 2-أوديو"، التي تشمل "كوين 2-أوديو-7B" و"كوين 2-أوديو-7B-إنستركت". يمثل هذا الإطلاق突破ًا كبيرًا في مجال التفاعلات الصوتية المدعومة بالذكاء الاصطناعي، حيث يهدف إلى توفير تجربة محادثة جديدة وجذابة للمستخدمين.
تتميز "كوين 2-أوديو" بقدرات متقدمة في معالجة الصوت، مما يمكنها من استقبال وتفسير مجموعة من إشارات الصوت، بما في ذلك الكلام البشري، والأصوات الطبيعية، والموسيقى. يعمل النموذج في وضعين رئيسيين للتفاعل: محادثة صوتية وتحليل صوتي. في وضع المحادثة الصوتية، يمكن للمستخدمين الاستمتاع بحديث طبيعي دون الحاجة إلى إدخال نص. بينما يتيح وضع التحليل الصوتي للمستخدمين إجراء فحوصات دقيقة للملفات الصوتية المرفوعة باستخدام أوامر صوتية ونصية، مما يوفر رؤى مفصلة.
أثبت نموذج "كوين 2-أوديو" تفوقه على أفضل النماذج السابقة في عدة اختبارات معيارية موثوقة، بفضل بنيته المتقدمة وتقنيات التحسين. من خلال دمج مشفر صوتي مع نموذج لغة كبير، تعتمد "كوين 2-أوديو" على مشفر "Whisper-large-v3" من OpenAI، مما يضمن معالجة صوتية فعالة ودقيقة، بينما تعزز مكون "كوين-7B" الأساسي من قدرات فهم اللغة وتوليدها. علاوة على ذلك، يستخدم النموذج أساليب التحسين المراقب (SFT) وتحسين التفضيلات المباشرة (DPO) لتعزيز الدقة والتعميم.
وظيفياً، لا تتيح "كوين 2-أوديو" فقط التعرف الذكي والتبديل السلس بين المحادثة الصوتية والتحليل الصوتي، بل تشمل أيضًا قدرات التعرف على المشاعر، مما يمكنها من تفسير الفروق العاطفية بدقة في الكلام وتعزيز التجربة العاطفية للتفاعلات. يدعم النموذج عدة لغات ولهجات، بما في ذلك الماندرين، والكانتونية، والفرنسية، والإنجليزية، واليابانية، مما يُوسع بشكل كبير من إمكانيات تطبيقاته.
يُظهر الإصدار المفتوح لنموذج التفاعل الصوتي "كوين 2-أوديو 7B" قوة شركة علي بابا التكنولوجية وقدرتها الابتكارية في قطاع الذكاء الاصطناعي، مما يحدد معيارًا جديدًا للصناعة. مع استمرار تطور التكنولوجيا وتوسع سيناريوهات التطبيق، من المتوقع أن تقدم "كوين 2-أوديو" المزيد من الراحة والإثارة للمستخدمين.