Das fortschrittliche Text-zu-Bild-Foundation-Modell von Google, Imagen 3, wird bald auf der Vertex AI-Plattform lanciert. Dieses KI-Tool der nächsten Generation steht ausgewählten Kunden in der Vorschau zur Verfügung und bietet Entwicklern eine schnellere Bildgenerierung, verbesserte Verständnisfähigkeiten für Eingabeaufforderungen, realistischere Darstellungen von Personen und verbesserte Textdarstellungsfähigkeiten im Vergleich zu früheren Versionen.
Ursprünglich im Mai auf der Google I/O vorgestellt, begann Imagen 3 mit einer privaten Vorschau in ImageFX für ausgewählte Schöpfer. Die Ankündigung von Google bestätigte, dass dieses leistungsstarke KI-Modell bald über Vertex AI zugänglich sein wird.
Douglas Eck, Senior Research Director bei Google DeepMind, hob die Leistungsfähigkeit hervor und sagte: „Es ist unser leistungsfähigstes Modell zur Bildgenerierung bisher. Imagen 3 ist fotorealistischer, detailreicher und minimiert visuelle Artefakte. Es versteht Eingaben, die auf natürliche und kreative Weise formuliert sind – detaillierte Anweisungen liefern die besten Ergebnisse. Darüber hinaus beherrscht es die Integration subtiler Details aus längeren Aufforderungen und verbessert die Textdarstellung, die in früheren Modellen eine ständige Herausforderung darstellte.“
Mit der Umstellung auf Vertex AI führt Imagen 3 mehrsprachige Unterstützung, robuste Sicherheitsfunktionen wie das digitale Wasserzeichen SynthID von Google DeepMind und Unterstützung für verschiedene Seitenverhältnisse ein.
Shutterstock, ein führendes Unternehmen in der Stockfotografie, hat dieses Modell bereits integriert. Justin Hiza, Vice President für Datenservices bei Shutterstock, bemerkte: „Seit der Integration von Imagen in unseren KI-Bilderzeuger haben unsere Nutzer Millionen von Bildern erstellt. Wir sind begeistert von den Verbesserungen, die Imagen 3 bietet, da Nutzer ihre Ideen schneller umsetzen können, ohne Kompromisse bei der Qualität einzugehen. Diese Verbesserung bekräftigt Shutterstocks Engagement für einen ethisch verantwortungsvoll eingesetzten KI-Bilderzeuger und gewährleistet Sicherheit und Schutz durch die Entschädigung von Google Cloud für generative KI.“
Während Google Imagen weiterentwickelt, hat das Unternehmen nicht bekannt gegeben, wann die Bildgenerierung von Gemini AI nach Kritik an Ungenauigkeiten wieder aufgenommen wird. Bei einer kürzlichen Pressekonferenz erläuterte Thomas Kurian, CEO von Google Cloud, den Unterschied zwischen den beiden Modellen: „Gemini ist ein multimodales Modell, das darauf ausgelegt ist, verschiedene Arten von Eingaben zu verarbeiten, einschließlich Bilder, Videos und Audios, was eine logische Verarbeitung über diese Modalitäten ermöglicht. Im Gegensatz dazu ist Imagen ein Diffusionsmodell, das sich ausschließlich auf die Erzeugung hochauflösender Text-zu-Bild-Ausgaben konzentriert. Sie dienen unterschiedlichen Zwecken.“
Fragen zum Zeitplan für die Wiederherstellung der Bildfunktionalität von Gemini bleiben unbeantwortet.