تكشف مجموعة أبحاث الذكاء الاصطناعي الأساسية في ميتا (FAIR) عن عدة نماذج وأدوات جديدة للباحثين، تركز على توليد الصوت، وقدرات النص إلى رؤية، وتقنيات العلامات المائية.
صرحت الشركة في بيان صحفي: "من خلال مشاركة أبحاثنا الأولية علنًا، نأمل في إلهام الابتكار وتقدم الذكاء الاصطناعي بطريقة مسؤولة".
نموذج إنشاء الصوت: جاسو وأدوات العلامات المائية
تقدم ميتا نموذج "جاسو"، والذي يمثل "التكييف المشترك للصوتيات والرموز لتوليد الموسيقى من النص المتحكم فيه زمنيًا". يعزز هذا النموذج إنشاء الصوت من خلال السماح للمستخدمين بإدخال عناصر متنوعة، مثل الأكورديات أو الإيقاعات، لتعديل المخرجات النهائية. تشير أبحاث FAIR إلى أن جاسو يمكّن المستخدمين من التحكم في خصائص الصوت الناتج—مثل الأكورديات، الطبول، والألحان—عبر أوامر نصية، مما يُسهل الحصول على الصوت المطلوب.
سيتم نشر كود استدلال جاسو كجزء من مكتبة نماذج الصوت AI AudioCraft بموجب ترخيص MIT، بينما سيكون النموذج المدرب مسبقًا متاحًا برخصة غير تجارية من Creative Commons. بالإضافة إلى ذلك، تطلق ميتا "AudioSeal"، أداة مبتكرة تقوم بإضافة علامات مائية على الكلام الناتج عن الذكاء الاصطناعي، مما يساعد في تحديد هذا المحتوى بشكل أكثر فعالية.
تؤكد ميتا: "AudioSeal هي أول تقنية لتحديد العلامات المائية الصوتية مصممة خصيصًا للكشف المحلي عن الكلام الناتج عن الذكاء الاصطناعي، مما يمكّن من تحديد الأجزاء التي أنشأها الذكاء الاصطناعي ضمن ملفات صوتية أطول". تعزز هذه الأداة من كفاءة الكشف، بحيث تزيد من سرعة الكشف بمعدل 485 مرة مقارنة بالطرق التقليدية. وعلى عكس النماذج الأخرى، سيتم إصدار AudioSeal بموجب ترخيص تجاري.
إصدار نموذج الكاميلون
تخطط FAIR أيضًا لإصدار نسختين من نموذجها متعدد الوسائط "الكاميلون" تحت رخصة بحث فقط. تم تصميم موديلات الكاميلون 7B و34B للمهام التي تتطلب فهمًا بصريًا ونصيًا، مثل تسميات الصور. ومع ذلك، أعلنت ميتا أنها لن توفر نموذج توليد الصور الخاص بالكاميلون في الوقت الحالي، مما يقتصر الوصول على الوظائف المتعلقة بالنص.
علاوة على ذلك، سيحصل الباحثون على إمكانية الوصول إلى طريقة توقع متعددة الرموز تدرب نماذج اللغة على كلمات مستقبلية متعددة في الوقت نفسه بدلاً من تسلسليًا. ستكون هذه الميزة متاحة بشكل حصري بموجب ترخيص غير تجاري وبحث فقط.