OpenAI erweitert seine Reichweite über die Text-, Bild- und Videogenerierung hinaus mit einem bedeutenden Fortschritt in der Audiotechnologie: der Sprachklonung. Heute gab das Unternehmen sein neuestes KI-Modell, den „Voice Engine“, bekannt. Dieses Modell wurde seit 2022 entwickelt und treibt die Text-zu-Sprache-API von OpenAI sowie die neuen Funktionen ChatGPT Voice und Read Aloud an, die Anfang dieses Monats eingeführt wurden.
Funktionsweise der Sprachklonung
Der Voice Engine kann realistische Sprachklone erstellen, indem eine Person einen 15-sekündigen Audioausschnitt über ein Telefon- oder Computer-Mikrofon aufnimmt. Die KI generiert dann natürlich klingende Sprache, die der Stimme des Originalsprechers ähnlich ist, sodass Nutzer eingegebenen Text in gesprochene Worte umwandeln können.
Wesentliche Auswirkungen auf den Markt für gesprochene Audioinhalte
Diese Technologie birgt enormes Potenzial für Personen, die häufig öffentlich sprechen, darunter Podcaster, Synchronsprecher, Hörbuchsprecher, Gamer und Kundenservicemitarbeiter. Darüber hinaus stellt sie eine Herausforderung für Wettbewerber in diesem Bereich dar, wie ElevenLabs, Captions, Meta, WellSaid Labs und MyShell. OpenAI hebt zudem hervor, dass der Voice Engine nonverbalen Personen mit einzigartigen, nicht-robotischen Stimmen unterstützen kann, was in therapeutischen und Bildungsumgebungen für Menschen mit Sprachbehinderungen oder Lernschwierigkeiten von großer Bedeutung sein kann.
Erste Anwendungsfälle
In seiner Ankündigung stellte OpenAI fest, dass der Voice Engine derzeit einer kleinen Gruppe von vertrauenswürdigen Partnern zugänglich ist, darunter:
- Age of Learning: Nutzt Voice Engine und GPT-4 zur Erstellung personalisierter Sprachinhalte für verschiedene Schülergruppen.
- HeyGen: Setzt die Technologie zur Videotranslation ein und erstellt benutzerdefinierte Avatare mit realistisch klingenden mehrsprachigen Stimmen zur Verbesserung der globalen Kommunikation.
- Dimagi: Integriert Voice Engine, um interaktive, mehrsprachige Rückmeldungen für Community-Gesundheitsarbeiter bereitzustellen und die Dienstleistungsqualität in entlegenen Gebieten zu verbessern.
- Livox: Verbessert seine AAC-App mit Voice Engine, um einzigartigen Stimmen für Personen mit Sprach- und Hörbehinderungen zu bieten.
- Norman Prince Neurosciences Institute at Lifespan: Nutzt die Technologie, um Patienten mit Sprachbehinderungen zu unterstützen, einschließlich der Wiederherstellung der Stimme eines Hirntumorpatienten basierend auf einer früheren Audioaufnahme.
OpenAI hat Audio-Beispiele bereitgestellt, die die Fähigkeiten der Technologie demonstrieren, einschließlich eines Vergleichs zwischen der Originalstimme eines Patienten und der geklonten Version mit dem Voice Engine.
Eingeschränkter Zugang und vorsichtige Einführung
Derzeit ist der Voice Engine nicht für die breite Öffentlichkeit verfügbar. OpenAI teilt Erkenntnisse und Ergebnisse aus einer kleinen Vorschau ausschließlich mit seinen vertrauenswürdigen Partnern. Das Unternehmen erklärte: „Wir verfolgen einen vorsichtigen und informierten Ansatz für eine breitere Veröffentlichung, um das Potenzial für den Missbrauch synthetischer Stimmen zu berücksichtigen.“ OpenAI möchte Diskussionen über die verantwortungsvolle Nutzung synthetischer Stimmen anstoßen und bewerten, wie die Gesellschaft sich an diese Fortschritte anpassen kann.
Der Ansatz von OpenAI zur Veröffentlichung des Voice Engine entspricht den jüngsten Forderungen nach Regulierung der KI-Stimmenimitation. Um eine ethische Nutzung sicherzustellen, müssen Partner, die die Technologie testen, strenge Richtlinien einhalten, die unautorisierte Imitationen untersagen und die informierte Zustimmung der Stimmegeber erfordern. Darüber hinaus führt OpenAI Sicherheitsmaßnahmen wie Wasserzeichen und proaktive Überwachung ein, um eine verantwortungsvolle Nutzung der Technologie zu fördern.