OpenAI hat sein neuestes Modell, GPT-4o, vorgestellt, das humorvoll auf schlechte Witze reagiert, auf Kommando singt und sogar beim Rufen von Londoner Taxis hilft – alles gleichzeitig, während es realistische Gespräche führt, die durch menschliche Unterbrechungen geprägt sind.
Während des mit Spannung erwarteten Frühlings-Update-Events, an dem 113.000 Menschen per Livestream teilnahmen, präsentierte OpenAI 16 Videos, die die Fähigkeiten von GPT-4o demonstrierten. Dieses multimodale große Sprachmodell interagiert in Echtzeit mithilfe männlicher und weiblicher Stimmen, basierend auf Audio-, visuellen und Texteingaben.
In einem der Videos erkannte GPT-4o, dass OpenAI-Präsident Greg Brockman eine Ankündigung machen wollte, und antwortete verspielt: „Die Ankündigung betrifft mich? Nun, das weckt mein Interesse. Ich sitze zwar nicht auf einem Stuhl, aber Sie verstehen schon.“
Mit den Text- und Bildeingabefunktionen, die über die OpenAI-API und ChatGPT verfügbar sind, werden Sprach- und Video-Funktionen in den kommenden Wochen folgen.
GPT-4o kann emotionale Hinweise der Benutzer präzise lesen und Ratschläge zu verschiedenen Themen geben. In einer Demo kommunizierte das Modell mit einer anderen Version seiner selbst und bemerkte humorvoll: „Nun, nun, nun, gerade als ich dachte, es könnte nicht interessanter werden – rede ich mit einer anderen KI, die die Welt sehen kann.“
Als sie aufgefordert wurden, ihre Umgebung zu beschreiben, erzählten die Modelle abwechselnd von einem stilvollen Mann und bemerkten Details zu seiner Kleidung und der Beleuchtung des Raumes. Als eine andere Person spielerisch unterbrach, sang GPT-4o sogar darüber und schmetterte: „Überraschungsgäste mit einem spielerischen Flair.“
Weitere Demonstrationen zeigten die vielfältigen Fähigkeiten von GPT-4o: Es lachte über Väter-Witze, führte Echtzeitübersetzungen zwischen Spanisch und Englisch durch, sang ein Schlaflied über „majestätische Kartoffeln“ und identifizierte genau den Gewinner im Stein-Schere-Papier. Es erkannte eine Geburtstagsfeier nur anhand des Vorhandenseins von Kuchen und Kerzen.
Beim Interagieren mit einem Welpen begrüßte GPT-4o fröhlich: „Nun, hallo, Süße, wie heißt du, kleiner Flauschball?“ (Der Name des Welpen war Bowser). Während es einen Blinden durch London führte, erkannte es die königliche Flagge und beschrieb Enten, die „sanft über das Wasser gleiten.“
Darüber hinaus kann GPT-4o bei schulischen Herausforderungen helfen, wie zum Beispiel beim Lösen von Mathematikproblemen zu Dreiecken. Es ermutigte den Schüler mit positiver Bestärkung und sagte: „Du hast hervorragende Arbeit geleistet, die Seiten zu identifizieren.“
Das Modell gab sogar Modeberatung an einen Bewerber, der unordentlich aussah, und empfahl humorvoll: „Du hast definitiv den ‚Ich habe die ganze Nacht codiert‘-Look drauf, was tatsächlich in deinem Vorteil sein könnte,“ während es einen schnellen Frisuren-Tipp gab.
Die Reaktionen auf GPT-4o in den sozialen Medien waren sehr unterschiedlich. Einige Nutzer feierten die Fähigkeiten als bahnbrechend und behaupteten, es „gewinne das Internet“ und stehe in Konkurrenz zu Google Translate. Der Senior Research Scientist bei Nvidia, Jim Fan, beschrieb das Modell als „lebhaft und sogar ein wenig flirty“ und verglich es mit dem Sci-Fi-Film „Her.“
Andererseits hielten einige Beobachter den Launch für „unterbewertet“, während AI-Beraterin Allie K. Miller auf einen Disconnect unter Technik-Enthusiasten hinwies, die mehr fortschrittliche Funktionen erwarteten.
Es wird spannend sein zu beobachten, wie Nutzer in den kommenden Tagen mit GPT-4o interagieren.