Camb Lance Mars5, un modèle d'intelligence artificielle de clonage vocal ouvert rivalisant avec ElevenLabs, offrant un réalisme amélioré et un support de 140 langues.

Aujourd'hui, la startup Camb AI, basée à Dubaï et spécialisée dans les technologies de localisation de contenu alimentées par l'IA, a dévoilé Mars5, un modèle avancé d'IA pour le clonage vocal.

Bien que de nombreux modèles, comme ceux d'ElevenLabs, puissent créer des répliques vocales numériques, Camb AI se distingue par le réalisme inégalé de Mars5. Selon les premiers échantillons de l'entreprise, Mars5 ne se contente pas d'imiter la voix d'origine, mais saisit également des éléments prosodiques complexes tels que le rythme, l'émotion et l'intonation. Camb AI prend en charge près de trois fois plus de langues qu'ElevenLabs, offrant plus de 140 langues, y compris des langues moins couramment parlées comme l'islandais et le swahili, contre 36 pour ElevenLabs. Cependant, la version open-source spécifique à l'anglais est disponible sur GitHub dès aujourd'hui, tandis que le support linguistique élargi est accessible via le Studio payant de Camb.

« Le niveau de prosodie et de réalisme que Mars5 capture avec seulement quelques secondes d'entrée est sans précédent. C'est un moment révolutionnaire dans la technologie de la parole », a déclaré Akshat Prakash, co-fondateur et CTO.

Intégration du clonage vocal et de la synthèse vocale

Traditionnellement, le clonage vocal et la synthèse vocale sont des processus distincts : le clonage vocal crée une voix synthétique à partir d'échantillons audio, tandis que la synthèse vocale utilise cette voix pour lire un texte. Cependant, Mars5 intègre ces deux capacités sur une seule plateforme. Les utilisateurs n'ont qu'à télécharger un fichier audio de quelques secondes à une minute et à fournir le texte à synthétiser. Le modèle analyse l'audio pour reproduire la voix, le style, l'émotion et le sens du locuteur, transformant le texte en parole naturelle.

Camb AI affirme que Mars5 capture habilement une large gamme de tons émotionnels, abordant des situations de discours complexes telles que la frustration, les ordres, le calme ou l'enthousiasme. Cette polyvalence rend Mars5 idéal pour du contenu souvent difficile, comme les commentaires sportifs, les films et l'anime.

Pour atteindre ce niveau de prosodie, Mars5 combine un modèle autoregressif de style Mistral avec environ 750 millions de paramètres et un modèle non-autoregressif innovant avec environ 450 millions de paramètres, utilisant des tokens encodec à 6 kbps. Prakash a précisé : « Le modèle AR prévoit les valeurs de codebook les plus basiques pour les caractéristiques encodec, tandis que le modèle NAR affine ces prévisions en ‘complétant’ les entrées restantes. Cette approche utilise un processus de diffusion de débruitage pour améliorer l'exactitude. »

Performance par rapport à d'autres modèles

Bien que des statistiques de référence spécifiques soient en attente, des tests préliminaires suggèrent que Mars5 surpasse des modèles de synthèse vocale populaires, y compris Metavoice et ElevenLabs, produisant souvent des résultats ressemblant davantage à la voix d'origine. Prakash a ajouté : « Bien qu'ElevenLabs ait été formé sur un ensemble de données significativement plus vaste de plus de 500 000 heures, notre conception de modèle capture les nuances de la parole de manière plus efficace. À mesure que nous élargissons nos ensembles de données et formons davantage Mars5—avec des mises à jour sur GitHub—nous prévoyons encore plus d'améliorations. »

Camb AI prépare également le lancement d'un autre modèle open-source appelé Boli, conçu pour une traduction qui comprend le contexte, garantit la précision grammaticale et capture les nuances colloquiales. Prakash a déclaré : « Boli dépasse les outils de traduction traditionnels comme Google Translate en offrant des traductions nuancées et culturellement pertinentes, en particulier pour les langues à faibles ressources. Les retours suggèrent que Boli surpasse considérablement les outils grand public, y compris les modèles génératifs de pointe comme ChatGPT. »

Actuellement, Mars5 et Boli prennent en charge 140 langues sur la plateforme propriétaire de Camb, Camb Studio, et l'entreprise propose ces capacités sous forme d'API aux entreprises, PME et développeurs. Camb AI collabore avec la Major League Soccer, Tennis Australia et Maple Leaf Sports & Entertainment, ainsi qu'avec des studios de cinéma et de musique de premier plan et diverses agences gouvernementales.

Notamment, Camb AI a marqué l'histoire en réalisant un doublage en direct d'un match de la Major League Soccer dans quatre langues simultanément pendant plus de deux heures, ainsi qu'en traduisant la conférence de presse d'après-match de l'Open d'Australie en plusieurs langues et en adaptant le thriller psychologique « Three » de l'arabe au mandarin.

Most people like

Find AI tools in YBX