تُعَدّ مبادرة OpenAI الثورية في مجال الذكاء الاصطناعي، التي تحمل اسم "سورا"، تقدماً كبيراً في عالم التكنولوجيا. هذا النموذج المبتكر لتحويل النصوص إلى فيديوهات قد أطلق للتو مرحلة اختبار محدودة، مما يستعرض قدراته المذهلة من خلال عدة فيديوهات مولّدة بالذكاء الاصطناعي والتي تتميز بواقعية مذهلة.
صُمم سورا لتحويل العبارات النصية إلى مشاهد فيديو حيوية. وتظهر OpenAI كيفية عمله عبر فيديوهات معروضة على موقعها، مما يكشف عن النتائج المثيرة للإعجاب. العبارات التي تُقدّم لسورا مختصرة لكنها وصفية؛ وقد يلاحظ المستخدمون الذين تفاعلوا مع ChatGPT أن سورا يستطيع إنتاج نتائج من عبارات أقصر. على سبيل المثال، لإنشاء فيديو يعرض الماموث المغطى بالصوف، احتاج سورا فقط إلى عبارة مكونة من 67 كلمة تصف الحيوانات وبيئتها وزوايا الكاميرا.
وفقاً لـ OpenAI، “يمكن لسورا إنشاء فيديوهات تصل مدتها إلى دقيقة واحدة مع الحفاظ على جودة بصرية عالية وتوافق مع طلبات المستخدمين.” يمتلك الذكاء الاصطناعي القدرة على تشكيل مشاهد معقدة تحتوي على العديد من الشخصيات، وإعدادات متنوعة، وحركات واقعية. وتوضح OpenAI أن سورا يمكنه تفسير واستنتاج سياق إضافي من العبارات التي يتلقاها.
تشدد الشركة على أن "النموذج يفهم ليس فقط طلبات المستخدمين، وإنما أيضاً كيف تتواجد هذه العناصر في العالم الحقيقي." يُظهِر سورا كفاءة ليس فقط في تجسيد الشخصيات والخلفيات، ولكن أيضاً في خلق "شخصيات جذابة تنقل مشاعر غنية."
علاوة على ذلك، يمتلك سورا القدرة على توسيع الفيديوهات الموجودة أو تعبئة الفراغات، بالإضافة إلى إمكانية إنشاء فيديوهات من الصور، مما يُبرز مرونته التي تتجاوز النصوص فقط. بينما تبدو الصور الثابتة مذهلة، فإن الفيديوهات تأسر حقاً عند الحركة. قدمت OpenAI مجموعة متنوعة من الفيديوهات المولّدة، من شوارع طوكيو المستوحاة من Cyberpunk إلى "لقطات تاريخية" من كاليفورنيا خلال فترة حمى الذهب، بالإضافة إلى لقطة مقربة جداً من عين إنسان. تشمل العبارات المقدمة مجموعة متنوعة من المواضيع، من المشاهد المتحركة إلى تصوير الحياة البرية.
على الرغم من قدراته الرائعة، فإن لسورا بعض القيود. بعض الفيديوهات تظهر عيوبًا، مثل الشخصيات في الزحام التي تفتقر إلى الرؤوس أو تظهر حركات غير طبيعية. هذه الحركات المحرجة قد لا تكون ملحوظة على الفور ولكنها تصبح واضحة عند الفحص الدقيق.
قد يستغرق الأمر بعض الوقت قبل أن يصبح سورا متاحاً للجمهور العام. حالياً، يُخضع النموذج للاختبار من قبل مجموعة مختارة من المختبرين لتقييم المخاطر المحتملة، بينما بدأت بعض المبدعين المحتوى أيضاً في استكشاف ميزاته خلال هذه المراحل الأولى من التطوير.
بينما يستمر تطور تكنولوجيا الذكاء الاصطناعي، يمكن أن تكون التوقعات للأداء منخفضة في كثير من الأحيان. ومع ذلك، سواء كان ذلك بسبب التوقعات المتواضعة أو قدرات سورا المتقدمة، فإن الانطباعات الأولية تُعتبر مثيرة للإعجاب ومقلقة. في عالم يصبح فيه التمييز بين الواقع والوهم أكثر تحديًا، فإن تداعيات هذه التكنولوجيا تمتد إلى ما هو أبعد من الصور—فقد أصبحت الفيديوهات أيضاً في خطر. سورا ليست المبادرة الأولى في مجال تحويل النصوص إلى فيديو، إذ ظهرت نماذج مثل Pika كذلك.
تُعبر المخاوف بشأن هذه التكنولوجيا على لسان يوتيوبر التكنولوجيا الشهير ماركيس براونلي، الذي علق على تويتر بأنه "إذا لم يكن هذا يثير قلقك على الأقل قليلاً، فلن يكون هناك ما يثير قلقك" فيما يتعلق بعرض سورا.
إذا كان سورا من OpenAI قد حقق بالفعل هذا المستوى من التعقيد، فمن المثير التفكير في إمكانياته بعد مزيد من التطوير والاختبار خلال السنوات القادمة. وبينما يمكن أن تُ disrupt هذه التكنولوجيا الأسواق الوظيفية المتعددة، فإن الأمل هو أنها، مثل ChatGPT، ستُدمج جنبًا إلى جنب مع الخبرة البشرية.