Déverrouiller l'avenir : MyShell lance OpenVoice, le nouveau modèle open source de clonage vocal par IA.

Des startups comme ElevenLabs ont investi des millions pour développer des algorithmes et des logiciels d'IA propriétaires pour le clonage vocal, créant des programmes audio qui reproduisent les voix des utilisateurs. Maintenant, des chercheurs du Massachusetts Institute of Technology (MIT), de l'Université Tsinghua à Pékin, et des membres de la startup AI MyShell présentent OpenVoice, une solution de clonage vocal open-source offrant des résultats quasi instantanés et des contrôles granulaires absents d'autres plateformes.

« Clonez des voix avec une précision inégalée, en ajustant le ton, l'émotion, l'accent, le rythme, les pauses et l'intonation à partir d'un simple court extrait audio », déclare MyShell dans un récent post sur X. L'entreprise a partagé un lien vers son article de recherche détaillant le développement d'OpenVoice, ainsi que des points d'accès pour les utilisateurs : l'application web MyShell (un compte utilisateur est requis) et HuggingFace (accès public sans compte).

Dans un courriel, le chercheur principal Zengyi Qin du MIT et de MyShell a insisté sur l'objectif du projet : « MyShell vise à bénéficier à la communauté de recherche. OpenVoice n'est que le début. À l'avenir, nous fournirons des subventions, des ensembles de données et des ressources informatiques pour soutenir la recherche open-source. Notre mission principale est 'IA pour tous'. »

Concernant la motivation derrière OpenVoice, Qin a expliqué : « Le langage, la vision et la voix sont trois modalités clés pour une future Intelligence Artificielle Générale (AGI). Bien qu'il existe divers modèles open-source pour le langage et la vision, il manquait un modèle puissant et instantané de clonage vocal pour la personnalisation, ce qui justifie ce projet. »

Utilisation d'OpenVoice

Lors de tests informels sur HuggingFace, j'ai rapidement généré une réplique convaincante—bien que quelque peu robotique—de ma voix avec des discours aléatoires. Contrairement à d'autres applications de clonage vocal, OpenVoice m'a permis de parler librement sans respecter un script spécifique. En quelques secondes, j'avais un clone vocal qui lisait avec précision mon texte.

De plus, je pouvais ajuster le « style » du clone parmi différents présélections émotionnelles, telles que joyeux, triste ou en colère, changeant efficacement le ton. Voici un exemple de mon clone vocal utilisant OpenVoice réglé sur un ton « amical ».

Comment OpenVoice a été créé

Les créateurs d'OpenVoice—Qin, Wenliang Zhao et Xumin Yu de l'Université Tsinghua, ainsi que Xin Sun de MyShell—ont exposé leur méthode dans leur article de recherche. OpenVoice se compose de deux modèles d'IA clés : un modèle de synthèse vocale (TTS) et un convertisseur de ton.

Le modèle TTS gère les paramètres de style et les langues, entraîné sur 30 000 phrases de deux locuteurs anglais (avec des accents américain et britannique), un locuteur chinois et un locuteur japonais, chacun étiqueté avec des émotions spécifiques. Il a appris les nuances comme l'intonation, le rythme et les pauses.

Le convertisseur de ton a été formé sur plus de 300 000 échantillons audio provenant de plus de 20 000 locuteurs. L'audio de la langue parlée est converti en phonèmes—des sons distincts qui différencient les mots—et représenté par des embeddings vectoriels.

En utilisant un « locuteur de base » pour le modèle TTS, combiné avec les informations de ton issues des entrées des utilisateurs, ces modèles peuvent reproduire la voix de l'utilisateur et adapter son expression émotionnelle. Le diagramme dans la recherche OpenVoice illustre comment ces modèles s’intègrent.

Malgré la simplicité conceptuelle, cette méthode est efficace et nécessite beaucoup moins de ressources informatiques que des concurrents comme Voicebox de Meta. Qin a partagé : « Nous avions pour objectif de développer le modèle de clonage vocal instantané le plus flexible. Cette flexibilité signifie un contrôle sur les styles, les émotions, les accents et une adaptabilité à n'importe quelle langue. Auparavant, une telle fonctionnalité complète était inaccessibile en raison de sa complexité. Grâce à un processus de pipeline découplé, nous avons atteint des résultats efficaces avec simplicité. »

Derrière OpenVoice

MyShell, fondée en 2023 avec un tour de financement de 5,6 millions de dollars dirigé par INCE Capital, avec des contributions de Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC, et OP Crypto, a déjà attiré plus de 400 000 utilisateurs, selon The SaaS News. Lors de mes recherches, j'ai observé plus de 61 000 utilisateurs sur leur serveur Discord.

MyShell se décrit comme une « plateforme décentralisée et complète pour découvrir, créer et staker des applications natives à l'IA. » En plus d'OpenVoice, leur application web propose divers personnages et bots IA basés sur du texte avec des personnalités distinctes, semblables à Character.AI, et inclut des outils comme un générateur de GIF animés et des RPG créés par les utilisateurs sur des franchises populaires.

Quant à la monétisation, MyShell facture un abonnement mensuel pour les utilisateurs de l'application web et pour les créateurs de bots tiers souhaitant promouvoir leurs produits dans l'application. Ils facturent également des données d'entraînement à l'IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles