Descubre los beneficios del Modo de Voz Avanzado de GPT-4o: Presentamos EVI 2 de Hume con inteligencia artificial de voz emocional y soluciones API.

Home Noticias de IA Descubre los beneficios del Modo de Voz Avanzado de GPT-4o: Presentamos EVI 2 de Hume con inteligencia artificial de voz emocional y soluciones API.

Updated on septiembre 18 2024

Cuando cubrimos por última vez a Hume, la innovadora startup de IA cofundada por el ex-científico de Google DeepMind, Alan Cowen, era la primavera de 2024 y la empresa había asegurado recientemente 50 millones de dólares en una ronda de financiación Serie B para avanzar en su tecnología única de voz AI. Hume, nombrada así por el filósofo escocés del siglo XVIII David Hume, utiliza grabaciones de voz inter culturales combinadas con encuestas emocionales autoinformadas para crear un modelo de IA que produce expresiones vocales realistas y comprende matices en diversos idiomas y dialectos.

Recientemente, Hume lanzó su interfaz vocal empática mejorada, EVI 2, que presenta mejoras destinadas a aumentar la naturalidad, la capacidad de respuesta emocional y la personalización, al tiempo que reduce los costos para desarrolladores y empresas. EVI 2 ofrece una reducción del 40% en la latencia y es un 30% más económica que su predecesora a través de la API.

Cowen enfatizó el objetivo de permitir a los desarrolladores integrar esta tecnología en sus aplicaciones, lo que brinda una experiencia de usuario confiable y personalizada. El nuevo diseño permite que los asistentes de voz impulsados por EVI 2 funcionen directamente dentro de las aplicaciones, mejorando las interacciones sin necesidad de un asistente de IA separado.

El lanzamiento de EVI 2 posiciona a Hume de manera ventajosa en un mercado de IA saturado, demostrando su capacidad frente a competidores como Anthropic y OpenAI. Mientras que el Modo de Voz Avanzado de ChatGPT de OpenAI, basado en el modelo GPT-4o, aún está en lanzamiento limitado, Cowen asegura que EVI 2 sobresale en detección y respuesta emocional.

EVI 2 está diseñado para conversaciones más rápidas y fluidas, con tiempos de respuesta de menos de un segundo y soporte para una amplia gama de personalizaciones vocales. Entre las mejoras clave se incluyen:

- Tiempos de Respuesta Más Rápidos: EVI 2 reduce la latencia en un 40%, logrando tiempos de respuesta entre 500 y 800 milisegundos para un flujo de conversación más natural.

- Inteligencia Emocional: Al integrar voz y lenguaje, EVI 2 puede comprender el contexto emocional, asegurando interacciones apropiadas y empáticas.

- Voces Personalizables: Un nuevo método de modulación de voz permite a los desarrolladores ajustar parámetros como tono y género, ofreciendo opciones versátiles sin los riesgos de la clonación vocal.

- Sugerencias en Conversación: Los usuarios pueden modificar dinámicamente el estilo de habla de la IA, fomentando interacciones más atractivas.

- Capacidades Multilingües: EVI 2 actualmente soporta inglés, con planes de añadir español, francés y alemán para finales de 2024. Notablemente, el modelo ha aprendido de forma autónoma varios idiomas gracias a su exposición a datos.

Hume AI también ha ajustado sus precios para EVI 2 a $0.072 por minuto, una reducción del 30% en comparación con los costos del modelo anterior. Los usuarios empresariales pueden aprovechar descuentos por volumen, mejorando la escalabilidad para negocios de alta demanda.

EVI 2 está disponible actualmente en beta y puede integrarse a través de la API de Hume, con desarrolladores que pueden utilizar las mismas opciones de configuración que EVI 1 hasta que se elimine en diciembre de 2024.

En general, EVI 2 encarna el compromiso de Hume AI de refinar la experiencia del usuario a través de la IA, centrándose en la alineación y la capacidad de respuesta emocional. Las actualizaciones futuras incluirán un soporte de idiomas ampliado y una integración fluida con otros modelos de lenguaje grandes y herramientas, asegurando que los desarrolladores tengan un recurso sólido para sus aplicaciones.

Además de EVI 2, Hume AI sigue ofreciendo la API de Medición de Expresiones y la API de Modelos Personalizados, mejorando las capacidades para desarrolladores interesados en aplicaciones de IA emocionalmente responsivas.

EzAudio AI de Tencent: Revolucionando la conversión de texto a voz con sonido realista, fomentando la innovación y el debate.

Rep.ai asegura $7.5 millones en financiamiento para lanzar innovadores representantes de ventas 'Digital Twin' en el ámbito de la inteligencia artificial.

Most people like

MyMap.AI

451.8K

Transforma tus ideas en texto en visuales atractivos sin esfuerzo.

mapeo mental AI Productivity Tools

AnythingLLM

256K

Descubre la aplicación de escritorio AI todo en uno diseñada para aumentar la productividad, proteger tu privacidad y ofrecer una flexibilidad sin igual.

Aplicación de IA para escritorio Large Language Models (LLMs)

Meals Chat

12.7K

¡Rastrear tu dieta es fácil! Comparte fotos de tus comidas conmigo en Telegram.

seguimiento de dieta AI Recipe Assistant

Midjourney Sref Code Library

9.5K

Una colección completa de códigos de referencia de estilo para crear arte impresionante en Midjourney. Explora nuestra lista seleccionada para elevar tu visión artística y mejorar tus proyectos creativos.

Midjourney AI Art Generator

Find AI tools in YBX