شارك رئيس شركة OpenAI، جريج بروكمان، مؤخرًا ما يبدو أنه الصورة العامة الأولى التي تم إنشاؤها بواسطة نموذج GPT-4o الجديد على حسابه في X.
تظهر الصورة شخصًا يرتدي قميصًا أسود يحمل شعار OpenAI، وهو يكتب على سبورة. والنص المكتوب يقول: "النقل بين أنماط البيانات. افترض أننا نقوم بنمذجة P (نص، بيكسلات، صوت) مباشرةً بواسطة مُحول كبير ذو اعتماد ذاتي. ما هي الإيجابيات والسلبيات؟"
تم إطلاق نموذج GPT-4o يوم الإثنين، ويعزز من عائلة GPT-4 السابقة (بما في ذلك GPT-4 وGPT-4 Vision وGPT-4 Turbo) من خلال تقديم معالجة أسرع، وتقليل التكاليف، وتحسين الاحتفاظ بالمعلومات من مدخلات متنوعة مثل الصوت والصور.
تتمثل النهج الابتكاري لشركة OpenAI في تدريب GPT-4o باستخدام رموز متعددة الوسائط، مما يلغي الحاجة لتحويل البيانات الصوتية والمرئية إلى نصوص أولاً. يتيح ذلك للنموذج تحليل وتفسير هذه الصيغ الإعلامية مباشرة، مما يؤدي إلى عملية أكثر سلاسة وكفاءة مقارنة بنماذج GPT-4 السابقة التي اعتمدت على نماذج متصلة متعددة.
يظهر مقارنة الصورة الجديدة بتلك التي أُنتِجَت بواسطة DALL-E 3 من OpenAI—الصادرة في سبتمبر 2023—تحسينات كبيرة في الجودة، والواقعية الضوئية، ودقة النصوص مع نموذج GPT-4o.
حاليًا، فإن قدرات إنشاء الصور الأصلية لـ GPT-4o ليست متاحة للجمهور. كما أشار بروكمان في منشوره، "يعمل الفريق بجد لإتاحة ذلك للعالم."