Desbloqueando el Futuro: MyShell Lanza OpenVoice, el Nuevo Modelo de Clonación de Voz AI de Código Abierto

Home Noticias de IA Desbloqueando el Futuro: MyShell Lanza OpenVoice, el Nuevo Modelo de Clonación de Voz AI de Código Abierto

Updated on octubre 30 2024

Las startups como ElevenLabs han invertido millones en desarrollar algoritmos y software de inteligencia artificial para la clonación de voz, que crean programas de audio que replican las voces de los usuarios. Ahora, investigadores del Instituto Tecnológico de Massachusetts (MIT), de la Universidad Tsinghua en Pekín y miembros de la startup de IA MyShell presentan OpenVoice, una solución de clonación de voz de código abierto que ofrece resultados casi instantáneos y controles granulares no disponibles en otras plataformas.

"Clona voces con una precisión sin igual, ajustando tono, emoción, acento, ritmo, pausas e entonación a partir de solo un pequeño clip de audio," declaró MyShell en una reciente publicación en X. La compañía compartió un enlace a su trabajo de investigación que detalla el desarrollo de OpenVoice, junto con puntos de acceso para que los usuarios lo prueben: la aplicación web de MyShell (se requiere cuenta de usuario) y HuggingFace (acceso público sin cuenta).

En un correo electrónico, el investigador principal Zengyi Qin del MIT y MyShell enfatizó el objetivo del proyecto: "MyShell busca beneficiar a la comunidad de investigación. OpenVoice es solo el comienzo. En el futuro, proporcionaremos subvenciones, conjuntos de datos y potencia de computación para apoyar la investigación de código abierto. Nuestra misión central es 'IA para Todos'.”

Sobre la motivación detrás de OpenVoice, Qin explicó: “El lenguaje, la visión y la voz son tres modalidades clave para la futura Inteligencia Artificial General (AGI). Si bien existen varios modelos de código abierto para lenguaje y visión, faltaba un modelo poderoso y instantáneo de clonación de voz para personalización, lo que nos llevó a emprender este proyecto.”

Usando OpenVoice

En pruebas informales usando HuggingFace, generé rápidamente una réplica convincente—aunque algo robótica—de mi voz utilizando discursos aleatorios. A diferencia de otras aplicaciones de clonación de voz, OpenVoice me permitió hablar libremente sin adherirme a un guion específico. En solo unos segundos, tenía un clon de voz que leía con precisión mi texto. Además, podía ajustar el "estilo" del clon entre diferentes preajustes emocionales, como alegre, triste o enojado, cambiando efectivamente el tono. Aquí tienes un muestra de mi clon de voz usando OpenVoice configurado en un tono "amigable".

Cómo se Creó OpenVoice

Los creadores de OpenVoice—Qin, Wenliang Zhao y Xumin Yu de la Universidad Tsinghua, y Xin Sun de MyShell—esbozaron su método en su trabajo de investigación. OpenVoice consiste en dos modelos de IA clave: un modelo de texto a voz (TTS) y un convertidor de tono.

El modelo TTS gestiona los parámetros de estilo y lenguajes, entrenado con 30,000 oraciones de dos hablantes de inglés (con acentos americano y británico), un hablante de chino y uno de japonés, cada uno etiquetado con emociones específicas. Aprendió matices como la entonación, ritmo y pausas. El convertidor de tono fue entrenado con más de 300,000 muestras de audio de más de 20,000 hablantes. El audio del lenguaje hablado se convierte en fonemas—sonidos distintos que diferencian palabras—y se representa como incrustaciones vectoriales.

Al utilizar un "hablante base" para el modelo TTS, en combinación con la información de tono del input del usuario, estos modelos pueden replicar la voz del usuario y adaptarse a su expresión emocional. El diagrama en la investigación de OpenVoice ilustra cómo se integran estos modelos. A pesar de la simplicidad conceptual, este método es eficiente y requiere significativamente menos recursos de computación que competidores como Voicebox de Meta.

Qin compartió: "Nuestro objetivo era desarrollar el modelo de clonación de voz instantánea más flexible. Esta flexibilidad significa control sobre estilos, emociones, acentos, y adaptabilidad a cualquier idioma. Anteriormente, tal funcionalidad integral era inalcanzable debido a su complejidad. A través de un proceso de tubería desacoplada, logramos resultados efectivos con simplicidad."

Detrás de OpenVoice

MyShell, establecida en 2023 con una ronda inicial de $5.6 millones liderada por INCE Capital junto con contribuciones de Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC y OP Crypto, ya ha atraído a más de 400,000 usuarios, según informó The SaaS News. Mientras investigaba, observé más de 61,000 usuarios en su servidor de Discord.

MyShell se describe como una "plataforma descentralizada y integral para descubrir, crear y mantener aplicaciones nativas de IA." Además de OpenVoice, su aplicación web presenta varios personajes y bots de IA basados en texto con personalidades distintas, similar a Character.AI, e incluye herramientas como un creador de GIFs animados y RPGs generados por usuarios basados en franquicias populares.

En cuanto a la monetización, MyShell cobra una suscripción mensual para los usuarios de su aplicación web y para los creadores de bots de terceros que deseen promocionar sus productos dentro de la app. También cobran por datos de entrenamiento de IA.

Transformando la Banca: Elevando las Experiencias Digitales del Cliente más Allá de Simples Transacciones

Informe de Fin de Año de la Corte Suprema Examina el Futuro de la IA en el Sistema Judicial

Most people like

ZeroGPT Plus

156.7K

Asegure la Autenticidad del Contenido con Tecnología de IA En la era digital actual, verificar la autenticidad del contenido en línea es más importante que nunca. Con el aumento de la desinformación y los deepfakes, utilizar la tecnología de IA para comprobar la autenticidad del contenido se ha convertido en una solución confiable y eficiente. Este enfoque innovador no solo ayuda a individuos y empresas a mantener su credibilidad, sino que también fomenta la confianza en la comunicación en línea. Exploremos cómo aprovechar la IA puede transformar la verificación de contenido y garantizar la integridad de la información.

Verificador de Contenido AI AI Detector

Angel AI

130K

Presentamos una innovadora aplicación de creación e interacción de compañeros de IA diseñada para mejorar la conexión humana. Esta plataforma de vanguardia permite a los usuarios diseñar sus propios compañeros virtuales, fomentando conversaciones atractivas y experiencias personalizadas. Ya sea que busques un amigo, un mentor o una fuente de inspiración, esta aplicación desbloquea infinitas posibilidades para interacciones significativas a través de tecnología avanzada de IA. Únete a nosotros para explorar el futuro de la compañía y la creatividad.

Aplicación de compañero de IA AI Girlfriend

Solidroad

26.1K

Mejora tu estrategia de ventas con nuestro simulador de conversación basado en IA, diseñado específicamente para llamadas de ventas. Esta herramienta innovadora permite a los profesionales de ventas practicar y perfeccionar sus habilidades, asegurando que cada interacción sea atractiva y persuasiva. Transforma tu enfoque en ventas y observa el impacto de una comunicación efectiva con nuestra tecnología de IA de vanguardia.

IA Sales Assistant

topin.tech

44.6K

Revoluciona tu proceso de contratación con nuestra avanzada plataforma de evaluación de habilidades en línea, diseñada para una evaluación integral del talento. Ya sea que busques mejorar tu estrategia de reclutamiento o perfeccionar la capacitación de empleados, nuestra plataforma ofrece información precisa sobre las habilidades y capacidades de los candidatos, asegurando que encuentres al candidato ideal para tu organización. ¡Descubre cómo nuestras soluciones innovadoras pueden transformar tu enfoque en la gestión del talento hoy mismo!

Plataforma de evaluación de habilidades en línea AI Recruiting

Find AI tools in YBX