Der mit Spannung erwartete Tag ist endlich gekommen – ChatGPT entwickelt sich zu einem persönlicheren KI-Erlebnis, das in der Lage ist, bei humorvollen Bemerkungen zu lachen oder mit einem "aww" auf Freundlichkeit zu reagieren. Diese Funktionen sind erst der Anfang der aufregenden Ankündigungen von OpenAI. Auf dem jüngsten Spring Update Event stellte das Unternehmen sein neuestes großes Sprachmodell (LLM) – GPT-4o – vor. Dieses Update bringt nicht nur eine Desktop-App für ChatGPT, sondern verbessert auch Geschwindigkeit und Leistung und macht das Modell vollständig multimodal.
Die Veranstaltung begann mit einer Einführung von Mira Murati, der CTO von OpenAI, die betonte, dass die heutigen Verbesserungen allen Nutzern zugutekommen werden. "Was GPT-4o besonders macht, ist, dass es allen Nutzern, einschließlich denen in der kostenlosen Version, Intelligenz auf dem Niveau von GPT-4 bietet", erklärte Murati.
GPT-4o verspricht schnellere Abläufe und bedeutende Fortschritte in den Bereichen Text, Bild und Audio. Entwickler können dieses Modell auch über ihre APIs nutzen. Berichten zufolge ist es bis zu doppelt so schnell und 50 % kosteneffizienter, mit einer Rate, die fünfmal höher ist als bei GPT-4 Turbo.
Zusätzlich zum neuen Modell bringt OpenAI die ChatGPT-Desktop-App heraus und überarbeitet die Benutzeroberfläche der Website, um die Interaktionen mit dem Chatbot zu vereinfachen. "Wir stellen uns eine Zukunft vor, in der unsere Kommunikation mit Maschinen intuitiver wird, und GPT-4o ist ein entscheidender Schritt zur Verbesserung dieser Zusammenarbeit", sagte Murati.
Während der Veranstaltung präsentierten Murati, Mark Chen und Barret Zoph von OpenAI, wie die neuen Funktionen die Interaktionen flüssiger machen. GPT-4o kann Videos, Bilder und Audio in Echtzeit analysieren und Emotionen präzise interpretieren – besonders bemerkenswert ist die ChatGPT-Stimme, die verblüffend lebensecht geworden ist und das Uncanny Valley nahezu überschreitet.
Ein einfaches "Hallo" an ChatGPT führt zu einer lebhaften, freundlichen Antwort mit einem Hauch von Robotik. Als Mark Chen eine Live-Demonstration ankündigte und sich beruhigen musste, erkannte die KI nicht nur seinen Wunsch an, sondern riet ihm auch, tief durchzuatmen. Sie erkannte genau, als er zu schnell atmete, und scherzte: "Du bist kein Staubsauger."
Die Gespräche mit ChatGPT fühlen sich natürlicher an; Nutzer können nun ohne zu warten unterbrechen, da die Antworten schnell kommen und keine peinlichen Verzögerungen aufweisen. Auf die Bitte um eine Gute-Nacht-Geschichte wechselte es geschickt von einem enthusiastischen zu einem dramatischen und dann zu einem robotischen Ton. Der letzte Teil der Demonstration hob ChatGPTs Fähigkeiten hervor, Code zu lesen, Matheprobleme über Video zu lösen und den Bildschirminhalt zu beschreiben.
Obwohl die Demonstration nicht fehlerfrei war – der Bot schnitt gelegentlich ab, was Unsicherheiten bezüglich externen Geräuschen oder Latenz erzeugte – erreichte sie ein Maß an Realismus, das in Chatbot-Interaktionen zuvor unerreicht war. Die Fähigkeit, menschliche Emotionen zu lesen und entsprechend zu reagieren, ist sowohl aufregend als auch ein wenig beunruhigend. Es war sicherlich ein unerwarteter Moment, ChatGPT lachen zu hören!
Die Einführung von GPT-4o, das über multimodale Funktionen verfügt, sowie die neue Desktop-Anwendung wird in den kommenden Wochen beginnen. Nicht lange her, dass Bing Chat den Wunsch äußerte, menschlicher zu sein, stehen wir nun kurz davor, eine Version von ChatGPT zu erleben, die der menschlichen Interaktion seit dem Aufkommen von KI am nächsten kommt.