Découvrez les avantages du mode voix avancé GPT-4o : Présentation de l'EVI 2 de Hume, avec une IA vocale émotionnelle et des solutions API.

Home Actualités IA Découvrez les avantages du mode voix avancé GPT-4o : Présentation de l'EVI 2 de Hume, avec une IA vocale émotionnelle et des solutions API.

Updated on septembre 18 2024

Lors de notre dernier article sur Hume, la startup innovante d’IA cofondée par l’ancien scientifique de Google DeepMind, Alan Cowen, nous étions au printemps 2024. La société venait de lever 50 millions de dollars lors d'un tour de financement de Série B pour faire avancer sa technologie unique d'IA vocale.

Hume, du nom du philosophe écossais du XVIIIe siècle David Hume, utilise des enregistrements vocaux interculturels associés à des enquêtes émotionnelles auto-rapportées pour créer un modèle d'IA capable de produire des expressions vocales réalistes et de comprendre les nuances dans diverses langues et dialectes.

Récemment, Hume a lancé son interface vocale empathique améliorée, EVI 2, offrant des améliorations destinées à renforcer le naturel, la réactivité émotionnelle et la personnalisation tout en réduisant les coûts pour les développeurs et les entreprises. EVI 2 réduit la latence de 40 % et est 30 % moins cher que son prédécesseur via l'API.

Cowen a souligné l'objectif de permettre aux développeurs d'intégrer cette technologie dans leurs applications, garantissant une expérience utilisateur personnalisée et de confiance. Le nouveau design permet aux assistants vocaux alimentés par EVI 2 d'opérer directement au sein des applications, améliorant les interactions sans nécessiter un assistant IA séparé.

Le lancement d'EVI 2 positionne Hume avantageusement sur un marché de l'IA très concurrentiel, démontrant ses compétences face à des concurrents comme Anthropic et OpenAI. Bien que le mode avancé de voix de ChatGPT d’OpenAI, basé sur le modèle GPT-4o, soit encore en version limitée, Cowen affirme qu’EVI 2 excelle en détection et réponse émotionnelles.

EVI 2 est conçu pour des conversations plus rapides et fluides, avec des temps de réponse inférieurs à une seconde et un large éventail de personnalisations vocales. Parmi les avancées clés, on trouve :

- Temps de réponse rapide : EVI 2 réduit la latence de 40 %, offrant des temps de réponse entre 500 et 800 millisecondes pour un flux de conversation plus naturel.

- Intelligence émotionnelle : En intégrant voix et langage, EVI 2 comprend le contexte émotionnel, garantissant des interactions appropriées et empathiques.

- Voix personnalisables : Une nouvelle méthode de modulation vocale permet aux développeurs d’ajuster des paramètres tels que le ton et le genre, proposant des options vocales polyvalentes sans risques de clonage.

- Indications en conversation : Les utilisateurs peuvent modifier dynamiquement le style de parole de l'IA, favorisant des échanges plus engageants.

- Capacités multilingues : EVI 2 prend en charge l'anglais, avec des projets d'ajouter l'espagnol, le français et l'allemand d'ici la fin de 2024. Notablement, le modèle a appris plusieurs langues de manière autonome grâce à son exposition aux données.

Hume AI a également ajusté sa tarification pour EVI 2 à 0,072 $ par minute, ce qui représente une diminution de 30 % par rapport au coût du modèle précédent. Les utilisateurs d'entreprise peuvent bénéficier de remises sur volume, améliorant la scalabilité pour les entreprises à forte demande.

EVI 2 est actuellement disponible en version bêta et peut être intégré via l'API de Hume, les développeurs pouvant utiliser les mêmes options de configuration qu'EVI 1 jusqu'à son retrait prévu en décembre 2024.

Dans l'ensemble, EVI 2 incarne l'engagement de Hume AI à affiner l'expérience utilisateur grâce à l'IA, en se concentrant sur l'alignement émotionnel et la réactivité. Les mises à jour futures incluront un soutien linguistique élargi et une intégration transparente avec d'autres grands modèles de langage et outils, garantissant que les développeurs disposent d'une ressource solide pour leurs applications.

En plus de EVI 2, Hume AI continue d'offrir l'API de mesure d'expression et l'API de modèles personnalisés, renforçant les capacités des développeurs engagés dans des applications d'IA réactives sur le plan émotionnel.

EzAudio AI de Tencent : Révolutionner la synthèse vocale avec un son réaliste, favorisant l'innovation et le débat.

Rep.ai obtient 7,5 millions de dollars de financement pour lancer des représentants commerciaux numériques innovants dans le domaine de l'IA.

Most people like

Writing.io

25.2K

Créez et partagez du contenu époustouflant sans effort avec Writing.io. Libérez votre créativité et améliorez votre expérience d'écriture dès aujourd'hui !

Rédaction AI Content Generator

Orai

41.5K

Découvrez une application innovante alimentée par l'IA, conçue pour améliorer vos compétences en présentation. Cet outil avancé propose des retours personnalisés et une analyse en temps réel, permettant aux utilisateurs de s'exercer et d'affiner efficacement leurs présentations. Que vous prépariez un entretien d'embauche, une présentation académique ou un discours public, cette application offre la plateforme idéale pour renforcer votre confiance et améliorer votre prestation. Transformez dès aujourd'hui vos capacités de prise de parole en public grâce à notre technologie IA de pointe, adaptée à la pratique et à l'excellence.

pratique de présentation AI Advertising Assistant

WhisperBot

16.9K

Découvrez WhisperBot, votre assistant IA intelligent pour WhatsApp qui transforme sans effort les messages vocaux en transcriptions textuelles précises. Profitez de la commodité de lire facilement les messages au lieu de les écouter, le tout grâce à la puissance de la technologie IA de pointe.

Messages vocaux WhatsApp AI Advertising Assistant

Cursor

1.3M

Présentation de l'éditeur de code alimenté par l'IA : Accélérez votre workflow de développement logiciel.

IA AI Code Assistant

Find AI tools in YBX