Die Entwicklung KI-generierter Bilder ist seit einiger Zeit im Gange, doch zuletzt haben führende Unternehmen in diesem Bereich bedeutende Fortschritte gemacht. Diese Woche stehen bemerkenswerte Updates von Midjourney, dem neuesten Modell von Google, und Grok im Mittelpunkt.
Jedes dieser Unternehmen drängt die Grenzen der KI-Technologie unterschiedlich voran und in einzigartigen Richtungen. Angesichts der offenen und wettbewerbsintensiven Landschaft ist es faszinierend zu beobachten, wie viel Fortschritt bereits erzielt wurde.
Midjourney erweitert mit neuem Webeditor
Midjourney hat kürzlich einen neuen Webeditor vorgestellt, der verschiedene Bildbearbeitungswerkzeuge in einer benutzerfreundlichen Oberfläche vereint. Zuvor mussten Nutzer durch mehrere Menüs navigieren für Funktionen wie Neufassung, Nachbearbeitung (Änderung bestehender Bilder), Schwenken, Leinwandverlängerung und Zoom. Diese neue, optimierte Benutzeroberfläche verbessert das Bearbeitungserlebnis erheblich und leitet damit einen Wandel von der ursprünglichen Discord-Nutzung ein.
Laut Midjourneys CEO David Holz zielt die Plattform darauf ab, das Bearbeiten KI-generierter Bilder „deutlich flüssiger“ zu gestalten. Während Midjourney weiterhin von Discord zu einer webbasierten Anwendung wechselt, wird die Aktivität aus beliebten Kanälen wie „daily-theme“, „prompt-craft“ und „general-1“ sowohl in Discord als auch in den Webräumen synchronisiert. Ergänzend dazu hat ein neues digitales Pinsel-Auswahlwerkzeug die herkömmlichen Auswahlwerkzeuge ersetzt, was den Bearbeitungsprozess für Nutzer, die mehr als zehn Bilder auf der Plattform erstellt haben, erleichtert. Das frühe Feedback aus der Creator-Community war durchweg positiv. Dieses Update folgt auf die Veröffentlichung von Midjourney 6.1, die die Bildqualität, Kohärenz (einschließlich besserer Genauigkeit bei Handdetails) und die Verarbeitungszeiten erheblich verbessert hat.
Grok-2s umstrittene Einführung
Nur zwei Tage nach dem Update von Midjourney wurde Grok-2 von Elon Musks xAI-Startup vorgestellt, was einen weiteren bedeutenden Schritt in der KI-Bilderzeugung darstellt. Angetrieben vom Flux.1-Modell des Black Forrest Lab erzielt Grok-2 Anerkennung für seine beeindruckende Bildqualität und Zugänglichkeit.
Allerdings werfen die Richtlinien von Grok-2 Bedenken auf. Im Gegensatz zu anderen KI-Generatoren scheint es nur minimale Vorgaben in Bezug auf geistiges Eigentum, Gewalt und anstößige Inhalte zu haben. Diese unklaren Grenzen haben Kontroversen ausgelöst, da Nutzer verstörende und unkonventionelle Bilder kreieren, die an die frühen Tage der KI-generierten Visualisierungen erinnern. Musk beschreibt Grok-2 als „die unterhaltsamste KI der Welt“ und deutet an, dass diese Nachgiebigkeit eine bewusste Entscheidung sein könnte, die die zukünftige Ausrichtung der KI-Technologie beeinflusst.
Google bringt Imagen 3 auf den Markt
Zuletzt hat Google sein KI-Modell Imagen 3 vorgestellt, das als „das hochwertigste Text-zu-Bild-Modell“ gilt. Für US-Nutzer herausgebracht, verspricht Imagen 3 verbesserte Detailgenauigkeit, optimiertes Licht und weniger ablenkende Artefakte im Vergleich zu seinen Vorgängern. Das Modell ist besonders effektiv bei der Textdarstellung und kommt in verschiedenen Versionen, die unterschiedlichen Bedürfnissen gerecht werden – von schnellen Skizzen bis hin zu hochauflösenden Bildern. Derzeit ist Imagen 3 über Google’s AI Test Kitchen im Rahmen von ImageFX zugänglich, befindet sich jedoch in der geschlossenen Beta-Phase, die eine Warteliste für die Teilnahme erfordert.