Google verbessert seinen Bard KI-Chatbot, um seine Wettbewerbsfähigkeit gegenüber OpenAI’s ChatGPT zu stärken. Unter der Leitung von Sundar Pichai kündigte Google die Integration von Bildgenerierungsfunktionen über das hauseigene Imagen 2 KI-Modell an, zusammen mit einer fortgeschritteneren Version von Gemini Pro. Diese Updates erweitern den Zugang zu Bards KI-Funktionalitäten und beinhalten ein neues, kostenloses Tool zur Erstellung von KI-generierten Bildern.
„Diese Updates positionieren Bard als effizienteren und global zugänglichen KI-Partner für alles, von groß angelegten kreativen Projekten bis hin zu alltäglichen Aufgaben“, erklärte Jack Krawczyk, Produktleiter für Bard, in einem Blogbeitrag. Zusätzlich testet Google ab heute einen weiteren Bildgenerator namens ImageFX.
Gemini Pro mit Mehrsprachigkeit
Vor über einem Monat stellte Google das Gemini KI-Modell in drei Versionen vor: Nano für mobile Anwendungen, Pro für mittlere Anwendungen und Ultra, das als das leistungsstärkste Sprachmodell gilt—noch fortschrittlicher als GPT-4—obwohl die Ultra-Version erst später in diesem Jahr veröffentlicht wird. Erste Vergleiche zwischen Gemini Pro und anderen Modellen deuteten darauf hin, dass es hinter OpenAI's älterem GPT-3.5 Turbo zurückbleiben könnte. Dies stellt eine Herausforderung für Google dar, da man die eigenen Fähigkeiten im Wettbewerbsumfeld der generativen KI präsentieren möchte. Letzten Monat wurde eine optimierte Version von Gemini Pro auf Bard veröffentlicht, jedoch nur in Englisch.
Die heutigen neuen KI-Funktionen sollen Google helfen, diese Lücke zu schließen. Die neueste Version von Bard unterstützt über 40 Sprachen—darunter Koreanisch, Spanisch, Tamil, Italienisch und Russisch—in mehr als 230 Ländern und Regionen. Diese Erweiterung ermöglicht mehr Nutzern den Zugang zu den fortgeschrittenen Fähigkeiten von Gemini Pro in den Bereichen Verständnis, Zusammenfassung, Schlussfolgerungen und Programmierung, ergänzt durch Bards Funktion zur Überprüfung von Antworten durch Webrecherche.
Imagen 2 auf Bard: Konkurrenz zu ChatGPT Plus und DALL-E 3
Eine der aufregendsten Entwicklungen ist die Einführung der KI-Bildgenerierung mit dem Imagen 2 Modell, das entwickelt wurde, um qualitativ hochwertige, fotorealistische Bilder aus Texteingaben zu erstellen. Dies positioniert Bard als direkten Konkurrenten zu OpenAI’s ChatGPT Plus, das den DALL-E 3 Bildgenerator integriert.
„Beschreiben Sie einfach, was Sie wollen—wie ‚erstelle ein Bild von einem Hund auf einem Surfbrett‘—und Bard generiert eine Vielzahl von Bildern, um Ihre Idee zum Leben zu erwecken“, erklärte Krawczyk.
Im Test erzeugte Bard Bilder in etwa 30-40 Sekunden und zeigte dabei eine gute Konsistenz. Es gab jedoch auch Fälle, in denen keine Bilder generiert wurden, obwohl die Richtlinien beachtet wurden, die Bilder bekannter Persönlichkeiten herausfilteren sollten, um mögliche Skandale zu vermeiden. Aktuell gibt es keine Unterstützung für die Anpassung des Seitenverhältnisses oder die Verwendung nicht-englischer Eingaben, basierend auf unseren ersten Tests des Tools.
Um Urheberrechtsbedenken im Zusammenhang mit KI-generierten Medien zu adressieren, ermöglicht Google Bard den Nutzern, rechtliche Probleme bezüglich Datenschutz und Urheberrecht für alle generierten Inhalte zu melden. Die Plattform setzt zudem Grenzen für gewalttätige, beleidigende oder sexuell anstößige Inhalte. Darüber hinaus hat Google digitale Wasserzeichen in die Pixel der erzeugten Bilder eingebettet, die mit SynthID von DeepMind entwickelt wurden, um KI-generierte Visuals von denen von menschlichen Künstlern zu unterscheiden.
Neue Funktionen mit ImageFX
Neben Bard erkundet Google auch ImageFX, das auf Imagen 2 basiert. Jetzt verfügbar im AI Test Kitchen, Googles experimentalem App, fördert ImageFX die kreative Erkundung durch „ausdrucksstarke Chips“, die den Nutzern Vorschläge und angrenzende Dimensionen zur Verbesserung ihrer Eingaben bieten. Diese Funktion ähnelt Angeboten anderer kreativer Tools wie Ideogram.
Das AI Test Kitchen beherbergt ebenfalls innovative Projekte wie MusicFX, das Melodien von bis zu 70 Sekunden mit Texteingaben und ausdrucksstarken Chips erstellen kann, sowie TextFX, das sich an Liedtexter und kreative Schriftsteller richtet.