تتيح تقنية Typecast الثورية للذكاء الاصطناعي التوليدي التعبير عن المشاعر الإنسانية

تعتبر اللغة أساسًا للتفاعل البشري، وكذلك المشاعر المرتبطة بها. إن التعبير عن مشاعر مثل السعادة والحزن والغضب والإحباط يعزز رسائلنا ويعمق علاقاتنا. بينما حقق الذكاء الاصطناعي تقدماً في مجالات متنوعة، إلا أنه يواجه صعوبة في التعرف على الفروق الدقيقة للمشاعر البشرية.

تسعى شركة Typecast، وهي شركة ناشئة مبتكرة، إلى تغيير ذلك من خلال تكنولوجيا نقل المشاعر بين المتحدثين. تتيح هذه الميزة للمستخدمين دمج المشاعر الملتقطة من صوت الآخرين في تسجيلاتهم الخاصة، مع الحفاظ على أسلوبهم الصوتي الفريد. تسهم هذه التطورات في تسهيل إنتاج المحتوى، وهي متاحة من خلال My Voice Maker الخاص بـTypecast.

كما يشير تايسو كيم، CEO ومؤسس مشارك لـNeosapience وTypecast، "لم يستطع الممثلون الذكاء الاصطناعي التقاط النطاق العاطفي للبشر بشكل كامل، وهو ما يمثل أكبر قيودهم". ومع تقنية نقل المشاعر بين المتحدثين من Typecast، يمكن "للجميع استخدام ممثلين ذكيين عاطفيين من خلال عينة صوتية صغيرة فقط".

فك شفرة المشاعر

تندرج المشاعر البشرية عمومًا تحت سبع فئات: السعادة، الحزن، الغضب، الخوف، المفاجأة، والاشمئزاز، بناءً على تعبيرات الوجه العالمية. ومع ذلك، تظل هذه الفئات غير كافية لنقل الطيف الكامل من المشاعر في الكلام المولد. يقول كيم في مقابلة حصرية: "الحديث ليس مجرد تحويل نص إلى كلام بشكل مباشر. يمكن للبشر إيصال نفس الجملة بطرق لا حصر لها". يمكن التعبير عن مشاعر مختلفة داخل نفس الجملة — وحتى في نفس الكلمة.

على سبيل المثال، يمكن أن يُطرح السؤال "كيف يمكنك فعل هذا بي؟" بنبرة مختلفة حسب العاطفة: من خيبة أمل إلى غضب. حتى المشاعر المعقدة، مثل "حزينة جدًا بسبب وفاة والدها لكنها تظهر ابتسامة على وجهها"، تعارض التصنيف الأحادي. يؤكد الباحثون، بما في ذلك كيم، أن القدرة على نقل مشاعر متنوعة تخلق محادثات أكثر ثراءً.

قيود تحويل النص إلى كلام عاطفي

على الرغم من التطورات السريعة لتكنولوجيا تحويل النص إلى كلام، مثل ChatGPT وLaMDA وLLama وBard، لا يزال تحقيق التحويل العاطفي يمثل تحديًا. غالبًا ما يتطلب الأمر بيانات موسومة بشكل كبير يصعب الحصول عليها. كما أن تسجيل الفروق الدقيقة لمختلف المشاعر كان عملية تستغرق وقتًا طويلاً. يشير كيم إلى أن "تسجيل جمل طويلة مع الحفاظ على المشاعر هو أمر صعب للغاية".

في تقنيات تركيب الكلام العاطفي التقليدية، يجب أن تكون كل بيانات التدريب مصنفة عاطفياً، مما يتطلب في كثير من الأحيان ترميزًا إضافيًا أو صوت مرجعي. تصبح هذه المشكلة قائمة عندما لا تكون البيانات متاحة لكل عاطفة أو متحدث، مما يؤدي إلى الإشارة الخاطئة ويصعب التقاط شدة المشاعر.

الابتكار باستخدام الشبكات العصبية العميقة والتعلم غير الخاضع للإشراف

لمواجهة هذه التحديات، قام الباحثون بإدخال تسميات المشاعر في شبكة عصبية عميقة توليدية—وهو نهج مبتكر. ومع ذلك، لم تكن هذه الخطوة كافية للتعبير عن المشاعر المعقدة وأنماط الكلام. ثم تم تطوير خوارزمية تعلم غير خاضع للإشراف لتحديد أنماط الكلام والمشاعر من قاعدة بيانات ضخمة. تم التدريب دون أي تسميات عاطفية، مما سمح للنموذج باشتقاق تمثيلات قيمة من بيانات الكلام. على الرغم من أن هذه التمثيلات قد لا تكون قابلة للفهم البشري، إلا أنها يمكن أن توجه خوارزميات تحويل النص إلى كلام للتعبير عن المشاعر.

شملت المزيد من التحسينات تدريب شبكة عصبية إدراكية لتحويل أوصاف المشاعر الطبيعية إلى تمثيلات قابلة للاستخدام. يقول كيم: "مع هذه التكنولوجيا، لم يعد لدى المستخدمين حاجة لتسجيل مئات الأنماط المختلفة أو المشاعر؛ يتعلم النظام من قاعدة بيانات واسعة من الأصوات العاطفية".

تكييف الخصائص الصوتية بسهولة

تمكن الباحثون من تحقيق "تركيب كلام عاطفي قابل للنقل والتحكم" من خلال الاستفادة من التمثيلات الكامنة. تتيح تقنيات مثل التدريب المعاكس في المجالات وخسارة الاتساق الدوري تفكيك خصائص المتحدث عن نمط الكلام. من خلال تحليل مجموعة واسعة من الأصوات البشرية المسجلة، يتعلم النظام الأنماط العاطفية والنغمات والانفعالات. وتتيح الطريقة نقل المشاعر إلى متحدث محايد باستخدام عدد قليل من العينات الموثقة، مع القدرة على التحكم في شدة المشاعر من خلال قيم عددية بديهية.

تتيح هذه الابتكارات للمستخدمين تسجيل مقتطف صوتي قصير، مع تطبيق عواطف مختلفة دون تغيير هويتهم الصوتية الفريدة. من خلال تسجيل خمس دقائق من الكلام، يمكنهم التعبير عن مشاعر مثل السعادة والحزن والغضب حتى عند الحديث بشكل طبيعي.

لقد تم بالفعل استخدام تكنولوجيا Typecast من قبل شركات بارزة مثل Samsung Securities وLG Electronics، حيث حصلت الشركة الناشئة على 26.8 مليون دولار منذ تأسيسها في 2017. حاليًا، تستكشف Typecast تطبيقات تقنيات تركيب الكلام الخاصة بها في تعبيرات الوجه.

أهمية القدرة على التحكم في الذكاء الاصطناعي التوليدي

في ظل المشهد الإعلامي المتغير بسرعة، كما يشير كيم، تحولت شعبية المدونات النصية نحو مقاطع الفيديو القصيرة، مما يلزم الأفراد والشركات بإنتاج محتوى صوتي ومرئي أكثر من أي وقت مضى. يؤكد كيم على أنه "صوت تعبيري عالي الجودة ضروري لتوصيل الرسائل المؤسسية".

تعد الكفاءة في الإنتاج أمرًا حيويًا، حيث إن العمل اليدوي من قِبل الممثلين البشريين غالبًا ما يكون بطيئًا جدًا. يقول كيم: "القدرة على التحكم في الذكاء الاصطناعي التوليدي أمر حاسم لإنتاج المحتوى. تمكن هذه التكنولوجيا الأفراد والشركات من فتح إمكانياتهم الإبداعية مع تعزيز الإنتاجية".

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles