Der Präsident von OpenAI, Greg Brockman, hat kürzlich auf seinem X-Account das erste öffentliche Bild geteilt, das mit dem neuen GPT-4o-Modell des Unternehmens generiert wurde. Das Bild zeigt eine Person in einem schwarzen T-Shirt mit dem OpenAI-Logo, die an einer Tafel schreibt. Der Text lautet: „Transfer zwischen Modalitäten. Angenommen, wir modellieren P (Text, Pixel, Ton) direkt mit einem großen autoregressiven Transformer. Was sind die Vor- und Nachteile?“
Das am Montag eingeführte GPT-4o-Modell verbessert die vorherige GPT-4-Familie (einschließlich GPT-4, GPT-4 Vision und GPT-4 Turbo) durch schnellere Verarbeitung, reduzierte Kosten und eine verbesserte Informationsspeicherung aus unterschiedlichen Eingaben wie Audio und visuellen Inhalten.
Der innovative Ansatz von OpenAI, GPT-4o mit Multimedia-Token zu trainieren, eliminiert die Notwendigkeit, Audio- und visuelle Daten zunächst in Text umzuwandeln. Dadurch kann das Modell diese Medienformate direkt analysieren und interpretieren, was zu einem reibungsloseren und effizienteren Betrieb im Vergleich zu den älteren GPT-4-Modellen führt, die auf mehrere verknüpfte Modelle angewiesen waren.
Im Vergleich zu den von OpenAI's DALL-E 3 – veröffentlicht im September 2023 – generierten Bildern zeigt das GPT-4o-Modell signifikante Verbesserungen in Qualität, Fotorealismus und Textgenauigkeit.
Derzeit sind die nativen Bildgenerierungsfunktionen von GPT-4o nicht öffentlich zugänglich. Wie Brockman in seinem Post erwähnte: „Das Team arbeitet hart daran, diese der Welt zugänglich zu machen.“