Nur wenige Tage nach der Vorstellung des verbesserten ChatGPT-Avatars, der in der Lage ist, in Echtzeit menschlich klingende Antworten zu geben, hat OpenAI beschlossen, die viel diskutierte „Sky“-Stimmenfunktion vorübergehend auszusetzen.
Diese Entscheidung wurde getroffen, da Bedenken aufkamen, dass die Sky-Stimme zu sehr an die Stimme von Scarlett Johansson als KI-Charakter im Film „Her“ erinnert. OpenAI wies die Behauptungen zurück, dass es sich um eine direkte Nachahmung handelt, und erläuterte, dass eine „andere professionelle Schauspielerin mit ihrer eigenen natürlichen Stimme“ zum Einsatz kam.
Derzeit ist unklar, wann oder ob die Sky-Stimme wiederhergestellt wird. ChatGPT-Nutzer können jedoch weiterhin zwischen vier alternativen Stimmen wählen: Breeze, Cove, Ember und Juniper.
Nach dieser Ankündigung teilte der Journalist Yashar Ali eine Erklärung von Johanssons Vertretung mit, die bestätigte, dass Johansson von OpenAI-CEO Sam Altman vor dem neuen Stimmenlaunch für ihre Stimme angesprochen wurde, jedoch Ablehnung signalisiert hat. Johansson äußerte ihren Schock und ihre Frustration über die Demo und stellte fest, dass die Stimme alarmierend ähnlich der ihren sei, was dazu führte, dass viele—darunter Freunde und Nachrichtenagenturen—die beiden verwechselten.
OpenAI hatte die Sprachfunktionen für ChatGPT im September 2023 eingeführt, doch das ursprüngliche Modell zeigte merkliche Verzögerungen aufgrund der Abhängigkeit von drei verschiedenen Systemen: einem zur Transkription von Audio in Text, GPT-3.5/GPT-4 zur Generierung von Antworten und einem weiteren zur Umwandlung des Textes zurück in Audio. Infolgedessen hatte die KI Schwierigkeiten, auf Tonfall, mehrere Sprecher und Hintergrundgeräusche zu reagieren.
Um diese Einschränkungen zu beheben, kündigte OpenAI kürzlich GPT-4o an—eine vereinheitlichte, Echtzeit-Multimodal-KI, die Text, Sprache und Vision integriert und Antworten in etwa 320 Millisekunden liefert. Dieses Upgrade positionierte ChatGPT als potenziellen Konkurrenten für etablierte Sprachassistenten wie Siri und Alexa.
Nach dem Launch bemerkten die Nutzer schnell, dass die Sky-Stimme eine auffällige Ähnlichkeit mit dem KI-Charakter „Samantha“ aus „Her“ hatte, was Spekulationen aufwarf, ob OpenAI möglicherweise KI verwendet hat, um Johanssons Stimmmerkmale nachzuahmen.
Als Antwort auf diese Bedenken hat OpenAI die Sky-Stimme ausgesetzt und klarstellt, dass es sich nicht um eine Nachahmung von Johansson handelt, sondern um die Stimme einer professionellen Schauspielerin, die nach einem umfangreichen Rekrutierungsprozess von fünf Monaten ausgewählt wurde. „Wir glauben, dass KI-Stimmen nicht absichtlich die charakteristischen Stimmen von Prominenten nachahmen sollten“, erklärte OpenAI in einem Blogbeitrag. Sie betonten, dass die Stimmen—aus einem Pool von 400 Bewerbern ausgewählt—nach Kriterien wie Diversität, Zeitlosigkeit und Wärme ausgewählt wurden.
Trotz der Aussetzung der Sky-Stimme bleiben die anderen vier Stimmen verfügbar. Mit dem bevorstehenden Rollout des neuen Voice-Modus von GPT-4o können die Nutzer diese Alternativen erkunden, während sie mit der KI interagieren.
Was die Zukunft der Sky-Stimme betrifft, so ist noch unklar, welche Anpassungen OpenAI plant, um den Bedenken hinsichtlich der Ähnlichkeiten mit Johanssons Charakter Rechnung zu tragen. Das Unternehmen bleibt entschlossen, mit den betroffenen Sprechern zusammenzuarbeiten und plant, sein Angebot mit zusätzlichen Stimmen zu erweitern, um unterschiedliche Nutzerpräferenzen und -interessen zu bedienen.