Cuando cubrimos por última vez a Hume, la innovadora startup de IA cofundada por el ex-científico de Google DeepMind, Alan Cowen, era la primavera de 2024 y la empresa había asegurado recientemente 50 millones de dólares en una ronda de financiación Serie B para avanzar en su tecnología única de voz AI. Hume, nombrada así por el filósofo escocés del siglo XVIII David Hume, utiliza grabaciones de voz inter culturales combinadas con encuestas emocionales autoinformadas para crear un modelo de IA que produce expresiones vocales realistas y comprende matices en diversos idiomas y dialectos.
Recientemente, Hume lanzó su interfaz vocal empática mejorada, EVI 2, que presenta mejoras destinadas a aumentar la naturalidad, la capacidad de respuesta emocional y la personalización, al tiempo que reduce los costos para desarrolladores y empresas. EVI 2 ofrece una reducción del 40% en la latencia y es un 30% más económica que su predecesora a través de la API.
Cowen enfatizó el objetivo de permitir a los desarrolladores integrar esta tecnología en sus aplicaciones, lo que brinda una experiencia de usuario confiable y personalizada. El nuevo diseño permite que los asistentes de voz impulsados por EVI 2 funcionen directamente dentro de las aplicaciones, mejorando las interacciones sin necesidad de un asistente de IA separado.
El lanzamiento de EVI 2 posiciona a Hume de manera ventajosa en un mercado de IA saturado, demostrando su capacidad frente a competidores como Anthropic y OpenAI. Mientras que el Modo de Voz Avanzado de ChatGPT de OpenAI, basado en el modelo GPT-4o, aún está en lanzamiento limitado, Cowen asegura que EVI 2 sobresale en detección y respuesta emocional.
EVI 2 está diseñado para conversaciones más rápidas y fluidas, con tiempos de respuesta de menos de un segundo y soporte para una amplia gama de personalizaciones vocales. Entre las mejoras clave se incluyen:
- Tiempos de Respuesta Más Rápidos: EVI 2 reduce la latencia en un 40%, logrando tiempos de respuesta entre 500 y 800 milisegundos para un flujo de conversación más natural.
- Inteligencia Emocional: Al integrar voz y lenguaje, EVI 2 puede comprender el contexto emocional, asegurando interacciones apropiadas y empáticas.
- Voces Personalizables: Un nuevo método de modulación de voz permite a los desarrolladores ajustar parámetros como tono y género, ofreciendo opciones versátiles sin los riesgos de la clonación vocal.
- Sugerencias en Conversación: Los usuarios pueden modificar dinámicamente el estilo de habla de la IA, fomentando interacciones más atractivas.
- Capacidades Multilingües: EVI 2 actualmente soporta inglés, con planes de añadir español, francés y alemán para finales de 2024. Notablemente, el modelo ha aprendido de forma autónoma varios idiomas gracias a su exposición a datos.
Hume AI también ha ajustado sus precios para EVI 2 a $0.072 por minuto, una reducción del 30% en comparación con los costos del modelo anterior. Los usuarios empresariales pueden aprovechar descuentos por volumen, mejorando la escalabilidad para negocios de alta demanda.
EVI 2 está disponible actualmente en beta y puede integrarse a través de la API de Hume, con desarrolladores que pueden utilizar las mismas opciones de configuración que EVI 1 hasta que se elimine en diciembre de 2024.
En general, EVI 2 encarna el compromiso de Hume AI de refinar la experiencia del usuario a través de la IA, centrándose en la alineación y la capacidad de respuesta emocional. Las actualizaciones futuras incluirán un soporte de idiomas ampliado y una integración fluida con otros modelos de lenguaje grandes y herramientas, asegurando que los desarrolladores tengan un recurso sólido para sus aplicaciones.
Además de EVI 2, Hume AI sigue ofreciendo la API de Medición de Expresiones y la API de Modelos Personalizados, mejorando las capacidades para desarrolladores interesados en aplicaciones de IA emocionalmente responsivas.