Meta startet Audiobox: Ein KI-Tool zur Sprachklonung und zur Erstellung von Ambient-Soundlandschaften.

Voice Cloning: Die Zukunft der KI-Audio-Generierung

Die Sprachklonierung ist ein schnell wachsendes Gebiet innerhalb der generativen KI, das die Nachbildung der sprachlichen Merkmale einer Person—wie Tonhöhe, Klangfarbe, Rhythmus, Manierismen und individuelle Aussprache—mit fortschrittlicher Technologie umfasst. Startups wie ElevenLabs haben bedeutende Finanzierungen für diesen Zweck erhalten, während Meta Platforms, das Mutterunternehmen von Facebook, Instagram, WhatsApp und Oculus VR, ein kostenloses Sprachklonierungstool namens Audiobox mit gewissen Einschränkungen vorgestellt hat.

Einführung in Audiobox

Audiobox wurde von Forschern des Facebook AI Research (FAIR) Labors entwickelt und beschreibt sich selbst als "grundlegendes Forschungsmodell für Audio-Generierung". Laut der Audiobox-Webseite kann es Stimmen und Soundeffekte erzeugen, indem es Sprach-Inputs und natürliche Textvorgaben kombiniert, was die Erstellung maßgeschneiderter Audioinhalte für verschiedene Anwendungsfälle erleichtert.

Benutzer können einfach einen Satz eingeben, den die geklonte Stimme sagen soll, oder ein Geräusch beschreiben, das sie generieren möchten. Alternativ können sie ihre eigene Stimme aufnehmen und von Audiobox klonen lassen.

Eine Familie von Audio-Generierungsmodellen

Meta hat eine "Familie von Modellen" entwickelt, darunter ein Modell für Sprachmimicry und ein weiteres für Umgebungsgeräusche wie Hundegebell oder Sirenen, die alle auf dem gemeinsamen selbstüberwachten Lernmodell Audiobox SSL basieren.

Selbstüberwachtes Lernen ist eine Technik des Deep Learning, bei der KI-Algorithmen ihre eigenen Labels für unbeschriftete Daten generieren, im Gegensatz zum überwachtem Lernen, das auf vorab beschrifteten Daten basiert. Die Forscher erklären in ihrer Arbeit ihren SSL-Ansatz und betonen, dass "beschriftete Daten nicht immer verfügbar oder von hoher Qualität sind; deshalb ist unsere Strategie, ohne Überwachung zu trainieren, wie z. B. mit Transkripten oder Untertiteln."

Führende generative KI-Modelle wie Audiobox sind oft auf von Menschen generierte Daten für das Training angewiesen. In diesem Fall nutzten die FAIR-Forscher "160.000 Stunden Sprache (hauptsächlich Englisch), 20.000 Stunden Musik und 6.000 Stunden Klangproben." Die Sprachdaten umfassen Hörbücher, Podcasts, Gespräche und Aufnahmen in verschiedenen akustischen Umgebungen, darunter Sprecher aus über 150 Ländern und mehr als 200 Hauptsprachen.

Obwohl die Forschungsarbeit keine spezifischen Datenquellen angibt, wirft sie ein wichtiges Problem auf: Urheberrechtsinhaber und Content-Ersteller haben Bedenken geäußert, dass KI-Unternehmen Modelle mit potenziell urheberrechtlich geschütztem Material ohne entsprechende Zustimmung trainieren. Meta erklärte in einer E-Mail, dass "Audiobox auf öffentlich verfügbaren und lizenzierten Datensätzen trainiert wurde", aber keine konkreten Quellen nannte.

Testen Sie Audiobox selbst

Meta stellt interaktive Demos zur Verfügung, die die Fähigkeiten von Audiobox präsentieren. Benutzer können ihre Stimme aufnehmen, eine geklonte Stimme erzeugen und dann Text eingeben, den diese Stimme sprechen soll. In meinem Test klang das resultierende Audio auffallend ähnlich meiner eigenen Stimme—bestätigt von Familienmitgliedern, die es hörten, ohne dessen Herkunft zu kennen.

Benutzer können auch völlig neue Stimmen basierend auf Textbeschreibungen wie "tiefe weibliche Stimme" oder "hochstimmiger männlicher Sprecher aus den USA" erstellen und verschiedene Geräusche wie Hundegebell erzeugen. Ich testete diese Funktion mit "Hundegebell" und erhielt zwei überzeugende Ergebnisse.

Es gibt jedoch einen wesentlichen Haken: Ein Haftungsausschluss besagt, dass "dies eine Forschungsdemo ist und nicht für kommerzielle Zwecke verwendet werden darf." Darüber hinaus ist die Nutzung auf Benutzer außerhalb von Illinois und Texas beschränkt, aufgrund von staatlichen Gesetzen zur Audioerfassung.

Zukunft von Audiobox und KI-Audio-Generierung

Im Gegensatz zum kürzlich eingeführten Imagine by Meta AI-Tool zur Bilderzeugung ist Audiobox nicht quelloffen und weicht von Metas zuvor festgelegtem Engagement für Offenheit ab, wie bei der Llama 2-Familie großer Sprachmodelle (LLMs). Ein Sprecher von Meta erklärte, dass sie planen, Forscher und akademische Institutionen einzuladen, Anträge für Fördermittel zu stellen, die auf Sicherheits- und Verantwortlichkeitsforschung mit Audiobox abzielen.

Derzeit kann Audiobox nicht für kommerzielle Zwecke verwendet werden und ist auch nicht für die Bewohner zweier der bevölkerungsreichsten Bundesstaaten der USA verfügbar. Angesichts der rasanten Entwicklung der KI-Technologie können wir jedoch die Einführung kommerzieller Versionen erwarten—unabhängig davon, ob sie von Meta oder anderen Entwicklern stammen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles