Die fortschrittliche Sprachfunktion von ChatGPT wurde am Dienstag für ausgewählte OpenAI-Abonnenten als Teil der mit Spannung erwarteten Alpha-Version eingeführt. Ursprünglich im Mai angekündigt, revolutioniert dieses Feature die Interaktion, indem es über traditionelle textbasierte Dialoge hinausgeht und Nutzer in lebensechter, gesprochener Sprache anspricht. Es unterstützt eine Vielzahl regionaler Akzente und Sprachen. Laut OpenAI zielt die fortschrittliche Sprachfunktion darauf ab, „natürlichere Gesprächsabläufe in Echtzeit zu ermöglichen, Unterbrechungen jederzeit zuzulassen und auf Emotionen zu reagieren.“
Allerdings gibt es einige Einschränkungen bei der Verwendung des Voice Modes. Das System arbeitet mit vier voreingestellten Stimmen und kann die Stimmen einzelner Nutzer oder öffentlicher Personen nicht nachahmen. Ausgaben, die von diesen Voreinstellungen abweichen, werden automatisch blockiert. Zudem ist die fortschrittliche Sprachfunktion nicht dafür ausgelegt, urheberrechtlich geschützte Audioinhalte zu erstellen oder Musik zu produzieren. Interessanterweise haben Nutzer bereits mit der Funktion experimentiert, indem sie die KI gebeten haben, Beatboxen zu machen.
Der Alpha-Tester Ethan Sutin teilte einen Thread auf X (ehemals Twitter), der verschiedene Antworten der fortschrittlichen Sprachfunktion zeigt, darunter einen kurzen „Geburtstags-Rap“ und eine Beatbox-Demonstration. Nutzer können das digitale Atmen der KI zwischen den Beats hören. Auch wenn sie keine vollständigen Lieder erstellen kann, fügt die KI beeindruckend Geräuscheffekte zu Gute-Nacht-Geschichten hinzu und verbessert somit das Storytelling-Erlebnis. Bei einer Erzählung über einen abtrünnigen Cyborg erzeugt sie beispielsweise passende Geräusche für Crashes und Schläge, um eine immersive Atmosphäre zu schaffen.
Die fortschrittliche Sprachfunktion kann auch spontan realistische Charaktere generieren, was ihre lebensechte Qualität erhöht. Nutzer können die KI anweisen, in verschiedenen Tonlagen und Sprachen zu sprechen, was die Interaktionen vertieft.
Die stimmlichen Fähigkeiten der KI gehen über menschliche Sprachen hinaus. Wenn gewünscht, kann die fortschrittliche Sprachfunktion beispielsweise Katzengeräusche präzise nachahmen. Nutzer können die KI mit Fragen zu ihren pelzigen Begleitern ansprechen und erhalten in Echtzeit maßgeschneiderte Tipps und Ratschläge.
Darüber hinaus kann die fortschrittliche Sprachfunktion die Kamera des Geräts nutzen, um Übersetzungsbemühungen zu unterstützen. In einem Fall richtete ein Nutzer sein Handy auf ein japanisches GameBoy Advance Pokémon-Spiel, sodass die KI den Dialog auf dem Bildschirm während des Spiels lesen konnte. Obwohl Video- und Screen-Sharing-Funktionen nicht Teil der Alpha-Version sind, plant OpenAI, diese bald einzuführen. Das Unternehmen beabsichtigt, die Alpha-Version in den kommenden Wochen auf weitere Plus-Abonnenten auszuweiten, mit einem vollständigen Rollout, der für diesen Herbst geplant ist.