Lors de notre dernier article sur Hume, la startup innovante d’IA cofondée par l’ancien scientifique de Google DeepMind, Alan Cowen, nous étions au printemps 2024. La société venait de lever 50 millions de dollars lors d'un tour de financement de Série B pour faire avancer sa technologie unique d'IA vocale.
Hume, du nom du philosophe écossais du XVIIIe siècle David Hume, utilise des enregistrements vocaux interculturels associés à des enquêtes émotionnelles auto-rapportées pour créer un modèle d'IA capable de produire des expressions vocales réalistes et de comprendre les nuances dans diverses langues et dialectes.
Récemment, Hume a lancé son interface vocale empathique améliorée, EVI 2, offrant des améliorations destinées à renforcer le naturel, la réactivité émotionnelle et la personnalisation tout en réduisant les coûts pour les développeurs et les entreprises. EVI 2 réduit la latence de 40 % et est 30 % moins cher que son prédécesseur via l'API.
Cowen a souligné l'objectif de permettre aux développeurs d'intégrer cette technologie dans leurs applications, garantissant une expérience utilisateur personnalisée et de confiance. Le nouveau design permet aux assistants vocaux alimentés par EVI 2 d'opérer directement au sein des applications, améliorant les interactions sans nécessiter un assistant IA séparé.
Le lancement d'EVI 2 positionne Hume avantageusement sur un marché de l'IA très concurrentiel, démontrant ses compétences face à des concurrents comme Anthropic et OpenAI. Bien que le mode avancé de voix de ChatGPT d’OpenAI, basé sur le modèle GPT-4o, soit encore en version limitée, Cowen affirme qu’EVI 2 excelle en détection et réponse émotionnelles.
EVI 2 est conçu pour des conversations plus rapides et fluides, avec des temps de réponse inférieurs à une seconde et un large éventail de personnalisations vocales. Parmi les avancées clés, on trouve :
- Temps de réponse rapide : EVI 2 réduit la latence de 40 %, offrant des temps de réponse entre 500 et 800 millisecondes pour un flux de conversation plus naturel.
- Intelligence émotionnelle : En intégrant voix et langage, EVI 2 comprend le contexte émotionnel, garantissant des interactions appropriées et empathiques.
- Voix personnalisables : Une nouvelle méthode de modulation vocale permet aux développeurs d’ajuster des paramètres tels que le ton et le genre, proposant des options vocales polyvalentes sans risques de clonage.
- Indications en conversation : Les utilisateurs peuvent modifier dynamiquement le style de parole de l'IA, favorisant des échanges plus engageants.
- Capacités multilingues : EVI 2 prend en charge l'anglais, avec des projets d'ajouter l'espagnol, le français et l'allemand d'ici la fin de 2024. Notablement, le modèle a appris plusieurs langues de manière autonome grâce à son exposition aux données.
Hume AI a également ajusté sa tarification pour EVI 2 à 0,072 $ par minute, ce qui représente une diminution de 30 % par rapport au coût du modèle précédent. Les utilisateurs d'entreprise peuvent bénéficier de remises sur volume, améliorant la scalabilité pour les entreprises à forte demande.
EVI 2 est actuellement disponible en version bêta et peut être intégré via l'API de Hume, les développeurs pouvant utiliser les mêmes options de configuration qu'EVI 1 jusqu'à son retrait prévu en décembre 2024.
Dans l'ensemble, EVI 2 incarne l'engagement de Hume AI à affiner l'expérience utilisateur grâce à l'IA, en se concentrant sur l'alignement émotionnel et la réactivité. Les mises à jour futures incluront un soutien linguistique élargi et une intégration transparente avec d'autres grands modèles de langage et outils, garantissant que les développeurs disposent d'une ressource solide pour leurs applications.
En plus de EVI 2, Hume AI continue d'offrir l'API de mesure d'expression et l'API de modèles personnalisés, renforçant les capacités des développeurs engagés dans des applications d'IA réactives sur le plan émotionnel.