تستعد Google لإطلاق تحديث متميز لنموذج تحويل النص إلى صورة، Imagen 3، الذي يعد بتحسين التفاصيل، وفهم أفضل للغة الطبيعية، وتقديم نصوص ذات جودة أعلى. النموذج متاح حاليًا لبعض المبدعين في معاينة خاصة على ImageFX، ويمكن للمطورين الانضمام إلى قائمة الانتظار للحصول على الوصول. من المتوقع أيضًا دمج Imagen 3 في Vertex AI.
قال دوغلاس إيك، المدير الأول للبحث في Google DeepMind، خلال مؤتمر Google I/O للمطورين: "هذا هو أرقى نموذج لخلق الصور لدينا حتى الآن". وأضاف: "يوفر Imagen 3 مزيدًا من الواقعية الفوتوغرافية، وتفاصيل أغنى، وأقل بكثير من العيوب البصرية أو التشوهات. إنه يفهم التعليمات بشكل محادثاتي – كلما زادت الإبداع والتفاصيل التي تقدمها، كلما كان الناتج أفضل. يتفوق Imagen 3 في دمج العناصر الدقيقة في التعليمات الأطول، ويمثل أفضل جهودنا حتى الآن في تقديم النصوص، وهو تحدٍ شائع لنماذج توليد الصور".
تأتي هذه الإعلان بعد ستة أشهر فقط من جعل Google نموذج Imagen 2 متاحًا على نطاق واسع عبر Vertex AI، بعد طرح capabilities live لتحويل النصوص في أبريل. من الضروري أن تظل Google في المقدمة في سوق أدوات توليد الصور بالذكاء الاصطناعي، مثل DALL-E من OpenAI، وMidjourney، وFirefly من Adobe، وMeta's AI، وDesigner من Microsoft.
ومع ذلك، لم تكن رحلة Google في هذا المجال خالية من التحديات. في وقت سابق من هذا العام، واجهت الشركة انتقادات بسبب صورها المُنتَجة بواسطة الذكاء الاصطناعي، حيث وصفها بعض النقاد بأنها "مبالغ فيها". وقد تضمنت هذه الصور تصورات لآباء الولايات المتحدة المؤسسين مع رجل أسود، وجنود ألمان من الحرب العالمية الثانية مع رجل أسود وامرأة آسيوية. اعترفت Google بالخطأ، وأكد الرئيس التنفيذي ساندار بيتشاي الاعتذار خلال مقابلة مع Bloomberg.
يعد الكشف عن Imagen 3 من بين العديد من التحديثات المثيرة من Google I/O، والتي تشمل أيضًا إطلاق نموذج جديد لتوليد الفيديو، Veo.