OpenAI führt den mit Spannung erwarteten "ChatGPT Advanced Voice Mode" ein, eine menschenähnliche Sprachschnittstelle, die den Zugang über die ursprüngliche Testgruppe und Warteliste hinaus erweitert. Dieses neue Feature steht allen zahlenden Abonnenten von OpenAI's ChatGPT Plus und Team-Plänen zur Verfügung, mit schrittweisem Zugang, der in den nächsten Tagen in den USA beginnt. Abonnenten der Edu- und Enterprise-Pläne können nächste Woche mit der Verfügbarkeit rechnen.
Zusätzlich zur Sprachschnittstelle führt OpenAI die Möglichkeit ein, "benutzerdefinierte Anweisungen" und "Gedächtnis" für personalisierte Interaktionen zu speichern, ähnlich den bereits für die Textoption veröffentlichten Funktionen. Nutzer können sich auf fünf neue Sprachstile – Arbor, Maple, Sol, Spruce und Vale – freuen, die die bestehenden Stimmen Breeze, Juniper, Cove und Ember ergänzen.
Dieses Update ermöglicht es ChatGPT-Nutzern, mit dem Chatbot über Sprache anstelle von Texteingaben zu interagieren. Eine Popup-Nachricht bestätigt, wenn Nutzer im App-Modus des Advanced Voice Assistant sind. OpenAI hat viel Zeit in die Verfeinerung von Akzenten gängiger Fremdsprachen und die Verbesserung der Gesprächsflüssigkeit investiert, seit der Alpha-Version. Zudem fällt der neu gestaltete Advanced Voice Mode durch eine animierte blaue Kugel auf.
Diese Verbesserungen sind exklusiv für das GPT-4o-Modell, während das neuere o1-Vorschaumodell ausgeschlossen ist. Benutzerdefinierte Anweisungen und Gedächtnisfunktionen werden die Interaktion während Sprachchats weiter personalisieren.
Angesichts des Aufstiegs von KI-Sprachassistenten wie Apples Siri und Amazons Alexa streben Entwickler danach, menschenähnlichere Konversationserlebnisse zu schaffen. Obwohl ChatGPT bereits die Sprachfunktionalität über die Vorlesefunktion integriert hat, zielt der Advanced Voice Mode darauf ab, eine noch fesselndere und authentischere Interaktion zu bieten.
Unter den Mitbewerbern hat Hume AI kürzlich seine Empathic Voice Interface eingeführt, das Emotionen durch Sprachmuster erkennt, während Kyutai seinen Open-Source-KI-Sprachassistenten Moshi präsentiert hat. Google hat neue Stimmen für seinen Gemini-Chatbot hinzugefügt, und Meta entwickelt Stimmen, die beliebte Schauspieler für seine KI-Plattform nachahmen. OpenAI behauptet, seine KI-Stimmtechnologie zugänglicher zu gestalten als die Konkurrenz.
Trotz der Vorfreude war die Einführung von KI-Stimmen nicht ohne Kontroversen. Es gab Bedenken hinsichtlich der Ähnlichkeit einer von ChatGPTs Stimmen, Sky, mit der Stimme von Schauspielerin Scarlett Johansson, insbesondere nachdem CEO Sam Altman "ihr" erwähnt hatte, was an Johanssons Rolle als KI-Assistentin in einem Film erinnerte. OpenAI hat betont, dass es nicht die Stimmen bekannter Persönlichkeiten nachahmen will und sicherstellt, dass Nutzer nur auf neun verschiedene Stimmen von OpenAI zugreifen können.
Der Rollout verzögerte sich ursprünglich von einem geplanten Start Ende Juni auf "spätes Juli oder frühes August", teilweise aufgrund des Engagements für Sicherheitstests. OpenAI führte umfassende Bewertungen mit externen Teams durch, die 45 Sprachen in 29 Regionen beherrschen. Die Entscheidung, den Zugang jetzt zu erweitern, deutet darauf hin, dass OpenAI Vertrauen in die umgesetzten Sicherheitsmaßnahmen hat und damit seinem vorsichtigen Ansatz folgt, mit den Regierungen der USA und des Vereinigten Königreichs zusammenzuarbeiten und neue Modelle vor ihrer Veröffentlichung vorzuexponieren.