Die Zukunft entfesseln: MyShell lanciert OpenVoice, das neue Open Source KI-Stimmenklon-Modell.

Home KI-Nachrichten Die Zukunft entfesseln: MyShell lanciert OpenVoice, das neue Open Source KI-Stimmenklon-Modell.

Updated on Oktober 30 2024

Startups wie ElevenLabs haben Millionen in die Entwicklung proprietärer Algorithmen und KI-Software für die Sprachsynthese investiert, um Audio-Programme zu erstellen, die die Stimmen der Nutzer nachahmen. Jetzt präsentieren Forscher des Massachusetts Institute of Technology (MIT), der Tsinghua-Universität in Peking und Mitglieder des KI-Startups MyShell OpenVoice – eine Open-Source-Lösung zur Sprachsynthese, die nahezu sofortige Ergebnisse liefert und detaillierte Steuerungsoptionen bietet, die in anderen Plattformen nicht vorhanden sind.

„Klonen Sie Stimmen mit unerreichter Präzision, indem Sie Tonfall, Emotion, Akzent, Rhythmus, Pausen und Intonation nur aus einem kleinen Audioschnipsel anpassen“, erklärt MyShell in einem aktuellen Beitrag auf X. Das Unternehmen hat einen Link zu seiner Forschungsarbeit geteilt, die die Entwicklung von OpenVoice beschreibt, sowie Zugangspunkte für Nutzer, um es auszuprobieren: die MyShell-Webanwendung (Nutzerkonto erforderlich) und HuggingFace (öffentlicher Zugang ohne Konto).

In einer E-Mail betonte der leitende Forscher Zengyi Qin vom MIT und MyShell das Ziel des Projekts: „MyShell möchte der Forschungsgemeinschaft zugutekommen. OpenVoice ist erst der Anfang. In Zukunft werden wir Stipendien, Datensätze und Rechenressourcen zur Unterstützung von Open-Source-Forschung bereitstellen. Unsere Kernmission lautet ‘KI für alle.’“

Zur Motivation hinter OpenVoice erklärte Qin: „Sprache, Vision und Stimme sind drei Schlüsselmodalitäten für zukünftige künstliche allgemeine Intelligenz (AGI). Während es verschiedene Open-Source-Modelle für Sprache und Vision gibt, fehlte ein leistungsfähiges, sofort einsetzbares Sprachsynthese-Modell zur Anpassung, weshalb wir dieses Projekt in Angriff genommen haben.“

Verwendung von OpenVoice

In informellen Tests mit HuggingFace erzeugte ich schnell eine überzeugende – wenn auch etwas robotische – Nachbildung meiner Stimme mit zufälliger Sprache. Im Gegensatz zu anderen Sprachsynthese-Anwendungen erlaubte mir OpenVoice, frei zu sprechen, ohne mich an ein bestimmtes Skript halten zu müssen. In nur wenigen Sekunden hatte ich einen Sprachklon, der meinen Text prompt genau wiedergab. Zudem konnte ich den „Stil“ des Klons zwischen verschiedenen emotionalen Voreinstellungen wie fröhlich, traurig oder wütend anpassen und so den Ton verändern.

Hier ist ein Beispiel meines Sprachklons mit OpenVoice im "freundlichen" Tonfall.

Entwicklung von OpenVoice

Die Schöpfer von OpenVoice – Qin, Wenliang Zhao und Xumin Yu von der Tsinghua-Universität sowie Xin Sun von MyShell – skizzierten in ihrer Forschungsarbeit ihre Methode. OpenVoice besteht aus zwei wichtigen KI-Modellen: einem Text-to-Speech (TTS)-Modell und einem Ton-Konverter.

Das TTS-Modell verwaltet Stilparameter und Sprachen, trainiert anhand von 30.000 Sätzen von zwei englischen Sprechern (mit amerikanischem und britischem Akzent), einem chinesischen Sprecher und einem japanischen Sprecher, die jeweils mit bestimmten Emotionen gekennzeichnet sind. Es erlernte Nuancen wie Intonation, Rhythmus und Pausen. Der Ton-Konverter wurde anhand von über 300.000 Audiodateien von mehr als 20.000 Sprechern trainiert. Die Sprache wird in Phoneme – unterschiedliche Laute, die Wörter unterscheiden – umgewandelt und als Vektoreinbettungen dargestellt.

Durch die Nutzung eines „Basissprechers“ für das TTS-Modell in Kombination mit Toninformationen aus Benutzereingaben können diese Modelle die Stimme des Nutzers replizieren und ihre emotionale Ausdrucksweise anpassen. Das Diagramm in der OpenVoice-Forschung veranschaulicht, wie diese Modelle zusammenarbeiten.

Trotz der konzeptionellen Einfachheit ist diese Methode effizient und benötigt deutlich weniger Rechenressourcen als Konkurrenten wie Metas Voicebox. Qin sagte: „Wir wollten das flexibelste Modell zur sofortigen Sprachsynthese entwickeln. Diese Flexibilität bedeutet Kontrolle über Stile, Emotionen, Akzente und Anpassungsfähigkeit an jede Sprache. Bisher war eine so umfassende Funktionalität aufgrund ihrer Komplexität nicht erreichbar. Durch einen entkoppelten Pipeline-Prozess haben wir effektive Ergebnisse mit Einfachheit erzielt.“

Hinter OpenVoice

MyShell, gegründet 2023 mit einer Seed-Runde von 5,6 Millionen Dollar, angeführt von INCE Capital sowie Beiträgen von Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC und OP Crypto, verzeichnet bereits über 400.000 Nutzer, wie von The SaaS News berichtet. Bei meinen Recherchen bemerkte ich über 61.000 Nutzer auf ihrem Discord-Server.

MyShell beschreibt sich als eine „dezentralisierte und umfassende Plattform zur Entdeckung, Erstellung und Staking von KI-nativen Anwendungen“. Neben OpenVoice enthält ihre Webanwendung verschiedene textbasierte KI-Charaktere und Bots mit unterschiedlichen Persönlichkeiten, ähnlich wie Character.AI, und umfasst Tools wie einen animierten GIF-Maker und von Nutzern erstellte RPGs basierend auf beliebten Franchises.

Was die Monetarisierung betrifft, so erhebt MyShell eine monatliche Abonnementgebühr für Webanwendungsnutzer und für Drittanbieter, die ihre Produkte innerhalb der App bewerben möchten. Zudem werden Gebühren für KI-Trainingsdaten erhoben.

Die Transformation des Bankwesens: Digitale Kundenreisen über einfache Transaktionen hinaus verbessern

Jahresbericht des Obersten Gerichts untersucht die Zukunft von KI im Rechtssystem

Most people like

Holara - Anime Image Generation

235.6K

Bist du ein Anime-Enthusiast oder ein angehender Künstler, der seine kreativen Visionen verwirklichen möchte? Unsere hochmoderne KI-Plattform bietet dir eine innovative Möglichkeit, atemberaubende Anime-Kunstwerke mühelos zu generieren. Mit einer benutzerfreundlichen Oberfläche und fortschrittlichen Algorithmen kannst du deine Ideen im Handumdrehen in beeindruckende Visuals verwandeln. Schließe dich einer Gemeinschaft von Kreativen an und entfessele deine Fantasie mit unseren leistungsstarken Tools, die speziell für Anime-Kunst entwickelt wurden. Begrüße die Zukunft der Kreativität mit unserer KI-gesteuerten Plattform noch heute!

KI-generierte Kunstwerke AI Anime Art

Transcope

86.7K

Transcope ist ein hochmodernes KI-Schreibwerkzeug, das von GPT-4 unterstützt wird und Ihnen dabei hilft, mühelos qualitativ hochwertigen, SEO-optimierten Inhalt zu erstellen. Entfalten Sie das Potenzial fortschrittlicher Schreibtechnologie, um Ihre Online-Präsenz mit Transcope zu verbessern.

KI-Textverarbeitung AI Content Generator

Handwriting OCR

31.6K

Handgeschriebene Inhalte präzise in digitale Formate umwandeln In der heutigen schnelllebigen digitalen Welt ist die Umwandlung handgeschriebener Inhalte in digitale Formate wichtiger denn je. Egal, ob Sie Notizen bewahren, Skizzen in digitale Grafiken verwandeln oder die Dokumentation optimieren möchten – eine präzise Digitalisierung handgeschriebener Materialien ist entscheidend für die Verbesserung von Effizienz und Zugänglichkeit. Nutzen Sie die Möglichkeiten der Technologie, um Ihre handgeschriebenen Inhalte leicht durchsuchbar, editierbar und teilbar zu machen, damit Ihre wertvollen Informationen immer griffbereit sind.

Handschrift OCR Handwriting

Photo AI

690.1K

Entfesseln Sie die Kraft von Photo AI, um atemberaubende Bilder zu erstellen – ganz ohne Kamera! Unsere innovative KI-Technologie erzeugt lebensechte Fotos und eliminiert die Kosten für einen Fotografen. Verwandeln Sie Ihre visuellen Inhalte mühelos und kostengünstig mit Photo AI.

KI-Fotogenerator AI Character

Find AI tools in YBX