أصدرت OpenAI تحديثًا كبيرًا لـ ChatGPT، حيث أضافت ميزات جديدة للصوت والصورة تمكّن الروبوت الذكي من الرؤية والسمع والتحدث بفعالية. يتيح هذا التحديث للمستخدمين تجربة "واجهة تفاعلية أكثر فاعلية"، مما يمكنهم من التفاعل مع المنصة بطرق ديناميكية جديدة.
مع وظيفة الصور المدمجة حديثًا، يمكن للمستخدمين تحميل الصور للحصول على معلومات أو طرح أسئلة بناءً على تفاصيل معينة. على سبيل المثال، إذا كنت ترغب في معرفة المزيد عن برج إيفل، ما عليك سوى التقاط صورة واستخدامها كإشارة. هل تواجه صعوبة في مسألة رياضية؟ التقط صورة من ورقة العمل الخاصة بك وأبرز السؤال الصعب، ودع ChatGPT يساعدك في حله.
بالإضافة إلى إرشادات الصور، يتيح ChatGPT الآن التفاعل الصوتي. يمكن للمستخدمين طلب أفكار لوصفات أو قصة قبل النوم بصوتهم. ليس فقط أن الذكاء الاصطناعي سيعالج الطلب، بل سيجيب أيضًا بصوت، مما يعزز تجربة المستخدم.
ستتوفر هذه الميزات الصوتية والصورية لمستخدمي ChatGPT Plus وEnterprise خلال الأسبوعين المقبلين. تتوافق ميزات الصوت مع أجهزة iOS وAndroid؛ لكن يجب على المستخدمين الاشتراك من خلال قائمة "الإعدادات". ستكون ميزات الصورة متاحة عبر جميع المنصات.
ذكرت OpenAI أن المطورين سيحصلون على الوصول إلى هذه الميزات الصوتية والصورية بعد فترة وجيزة من إصدارها، على الرغم من أن التوقيت المحدد لم يُؤكد بعد.
فهم التفاعل مع الصور
تستخدم وظيفة الصور المعززة في ChatGPT إصدارات متعددة الوسائط من نماذج GPT-3.5 وGPT-4. يمكن للمستخدمين تحميل صورة واحدة أو عدة صور جنبًا إلى جنب مع النصوص. إذا أرادوا التركيز على جانب معين من الصورة، يتيح لهم الواجهة المحمولة إمكانية التعليق بسهولة باستخدام أداة الرسم.
على سبيل المثال، يمكن لدراج يحتاج إلى مساعدة في ضبط مقعد دراجته تحميل صورة ذات صلة والحصول على إرشادات واضحة حول كيفية إيجاد رافعة التحرير السريع أو الصمولة.
تؤكد OpenAI أن ميزات رؤية ChatGPT مصممة للمساعدة في المهام اليومية العملية. "تكون أداؤها الأفضل عندما يمكن أن ترى ما ترى"، كما تشرح الشركة.
استكشاف التفاعل الصوتي
تحوّل الميزة الصوتية الجديدة كيفية تفاعل المستخدمين مع ChatGPT، مما يتيح محادثات شديدة الجاذبية وديناميكية. تفوق هذه القدرة على تلك الخاصة بمساعدي الذكاء الاصطناعي التقليديين مثل Siri وAlexa وGoogle Home. نموذج تحويل النص إلى صوت المطور حديثًا يولّد صوتًا شبيهًا بالبشر من نصوص بسيطة، بينما قدم فنانو صوت محترفون مواهبهم لإنتاج مجموعة من الأصوات.
علاوةً على ذلك، استخدمت OpenAI نموذج "Whisper" للتعرف على الكلام لنسخ اللغة المنطوقة بدقة إلى نص. يمكن للمستخدمين تخصيص تجربتهم من خلال اختيار الصوت المفضل لديهم من خمس خيارات متاحة عبر "علامة الميزات الجديدة" في إعداداتهم.
تجري أيضًا تعاونات مع خدمة البث Spotify لتعزيز قدرات الدردشة الصوتية، مما يمكّن من الترجمات التلقائية لمحتوى البودكاست.
ضمان الأمان والخصوصية
تلتزم OpenAI بالحفاظ على سلامة المستخدمين من خلال هذه الميزات الجديدة. قامت المؤسسة بتنفيذ تدابير وقائية متنوعة، بالتعاون مع جهات خارجية لتحديد المخاطر المحتملة والقيود. بالإضافة إلى ذلك، تم وضع قيود تقنية لتقليل تحليل الأفراد في الصور، مما يضمن الشفافية حول حدود النموذج.
أُجري اختبار شامل لمعالجة مختلف المخاوف، بما في ذلك منع إساءة الاستخدام والحفاظ على الخصوصية. تدرك OpenAI التحديات التي قد يواجهها ChatGPT مع اللغات غير الإنجليزية، خصوصًا تلك التي تستخدم الكتابات غير الرومانية، وتنصح بالحذر لمتحدثي اللغات غير الإنجليزية عند استخدام المنصة لهذا الغرض.
مع صدور هذه الميزات، يمكن للمستخدمين توقع تجربة أكثر ثراءً وتفاعلية مع ChatGPT، مما يحول طريقة وصولهم إلى المعلومات وتفاعلهم مع هذه الأداة الذكية المتقدمة.