Heute beim Spring Updates-Event von OpenAI präsentierte CTO Mira Murati GPT-4o (GPT-4 Omni), ein bahnbrechendes multimodales großes Sprachmodell (LLM), das in den kommenden Wochen für kostenlose ChatGPT-Nutzer verfügbar sein wird. Außerdem wird eine neue Desktop-App für macOS (unterstützt von Windows, das später kommt) es den Nutzern ermöglichen, die Plattform über Web- und mobile Anwendungen hinaus zu nutzen.
„GPT-4o kombiniert Sprache, Text und Vision“, erklärte Murati und hob die Fähigkeit hervor, Echtzeit-Videos zu akzeptieren und zu analysieren, die von Nutzern über die ChatGPT-Smartphone-App aufgenommen wurden, obwohl diese Funktion derzeit nicht öffentlich verfügbar ist. „Das fühlt sich magisch an, und das ist wunderbar, aber wir wollen es entmystifizieren und Ihnen die Möglichkeit geben, es selbst auszuprobieren“, fügte sie hinzu.
Das neue Modell kann in Echtzeit akustisch antworten, emotionale Zustände der Nutzer aus Audio- und Videoeingaben erkennen und seinen Sprachton anpassen, um verschiedene Emotionen auszudrücken, ähnlich wie die Angebote des Konkurrenzunternehmens Hume. Bei einer Demo bat ein Präsentator ChatGPT, das von GPT-4o unterstützt wird, eine Geschichte mit zunehmendem Drama zu erzählen, was es zügig umsetzte. Es stoppt intelligent, wenn es unterbrochen wird, und hört aufmerksam zu, bevor es fortfährt.
OpenAI veröffentlichte Demo-Videos, die die Fähigkeiten von GPT-4o zeigen, und erklärte, dass das Modell in nur 232 Millisekunden auf Audioeingaben reagieren kann, mit einem Durchschnitt von 320 Millisekunden, was mit menschlichen Reaktionszeiten vergleichbar ist.
OpenAI erläuterte, wie GPT-4o die Nutzererfahrung verbessert: „Vor GPT-4o brachte der Voice-Modus Latenzen von 2,8 Sekunden (GPT-3.5) und 5,4 Sekunden (GPT-4) mit sich, die drei separate Modelle verwendeten. Dies bedeutete, dass die Hauptintelligenzquelle—GPT-4—Ton, mehrere Sprecher oder Hintergrundgeräusche nicht vollständig wahrnehmen konnte.“ Mit GPT-4o werden alle Eingaben und Ausgaben von einem einzigen End-to-End-Neuronalen Netzwerk verarbeitet, das Text, Vision und Audio kombiniert, um reichhaltigere Interaktionen zu ermöglichen. Es kann sogar mehrere Perspektiven eines Bildes generieren, die in 3D-Objekte umgewandelt werden können.
OpenAI hat jedoch keine Pläne angekündigt, GPT-4o oder eines der neueren Modelle als Open Source zur Verfügung zu stellen. Während Nutzer die Fähigkeiten des Modells auf der Website von OpenAI und über die API erkunden können, erhalten sie keinen Zugang zu den zugrunde liegenden Modellgewichten für Anpassungen—ein Kritikpunkt vom Mitgründer Elon Musk.
Die Einführung von GPT-4o verbessert das kostenlose ChatGPT-Erlebnis erheblich. Zuvor auf das textbasierte Modell GPT-3.5 beschränkt, erhalten kostenlose Nutzer nun Zugang zu einem fortschrittlicheren Modell mit verbesserten Möglichkeiten zur Analyse von Bildern und Dokumenten, Web-Browsing, Datenanalyse, benutzerdefinierten GPTs und einem Speicher, der Nutzerpräferenzen durch einfache Eingabeaufforderungen beibehält.
In einer Live-Demo präsentierten die Referenten, wie ChatGPT, unterstützt von GPT-4o, gesprochene Worte in Echtzeit zwischen Italienisch und Englisch übersetzte. OpenAI hob zudem hervor: „ChatGPT unterstützt jetzt über 50 Sprachen für die Anmeldung, den Login und die Nutzereinstellungen.“ Darüber hinaus zeichnet sich GPT-4o durch ein hohes Verständnis für die Diskussion von gemeinsamen Bildern aus und kann konsistente KI-Kunstcharaktere erstellen, was vielen bestehenden KI-Kunstgeneratoren nicht gelang.
Zunächst wird GPT-4o für zahlende Abonnenten verfügbar sein, gefolgt von einem schrittweisen Rollout an kostenlose Nutzer: „Wir beginnen mit ChatGPT Plus und Teamnutzern, der Zugang für Unternehmen folgt bald. Kostenlose Nutzer werden Nutzungslimits haben“, sagte OpenAI.
In den sozialen Medien bestätigte OpenAI, dass „Text- und Bildeingaben“ heute in der API eingeführt werden, während Sprach- und Video-Funktionen in den kommenden Wochen starten. Die API wird GPT-4o zum halben Preis und mit doppelter Geschwindigkeit im Vergleich zu GPT-4 Turbo anbieten, sowie erhöhte Anruflimits für Drittentwickler.
OpenAI-CEO Sam Altman reflektierte über die sich entwickelnde Mission des Unternehmens: „Unser Ziel war es, KI zum Nutzen der Gesellschaft zu schaffen, aber jetzt scheint es, dass wir KI entwickeln, die anderen hilft zu innovieren, wovon alle profitieren.“
In seinem Blogbeitrag bemerkte Altman: „Unsere Hauptmission ist es, leistungsstarke KI-Tools erschwinglich anzubieten. Ich bin stolz darauf, dass wir das beste Modell weltweit kostenlos über ChatGPT anbieten.“
Die neue ChatGPT-Desktop-App wird schrittweise veröffentlicht, zuerst für macOS und später für Windows. Murati gab bekannt, dass derzeit mehr als 100 Millionen Menschen ChatGPT nutzen, mit über 1 Million erstellten benutzerdefinierten GPTs.
Trotz der kurzen Dauer von 26 Minuten und einiger unbeholfener Live-Demos verspricht die bald startende Technologie, die Nutzererfahrung zu verbessern und eine natürlichere, leistungsstärkere Schnittstelle als frühere Versionen zu bieten.