Когда мы в последний раз рассказывали о Hume, инновационном стартапе в сфере ИИ, сопредседателем которого является бывший ученый Google DeepMind Алан Коуэн, был весна 2024 года. Компания недавно привлекла 50 миллионов долларов в рамках раунда финансирования Series B для дальнейшего развития своей уникальной технологии голосового ИИ.
Hume, названная в честь шотландского философа XVIII века Дэвида Хьюма, использует межкультурные голосовые записи, сопоставленные с самооценочными эмоциональными опросами, для создания модели ИИ, способной генерировать естественные голосовые выражения и распознавать нюансы в различных языках и диалектах.
Недавно Hume представила усовершенствованный интерфейс Empathic Voice Interface 2 (EVI 2), который отличается улучшениями, направленными на повышение естественности, эмоциональной отзывчивости и настройки, а также на снижение затрат для разработчиков и бизнеса. EVI 2 предлагает снижение задержки на 40% и на 30% более низкую стоимость через API по сравнению с предшественником.
Коуэн подчеркнул цель обеспечения интеграции этой технологии в приложения разработчиков, что позволяет создать надежный и персонализированный пользовательский опыт. Новый дизайн позволяет голосовым помощникам, использующим EVI 2, функционировать непосредственно внутри приложений, улучшая взаимодействие пользователей без необходимости в отдельном ИИ-помощнике.
Запуск EVI 2 происходит в благоприятный момент на переполненном рынке ИИ, демонстрируя способности Hume по сравнению с конкурентами, такими как Anthropic и OpenAI. В то время как продвинутый голосовой режим ChatGPT от OpenAI на основе модели GPT-4o все еще находится в ограниченном доступе, Коуэн утверждает, что EVI 2 превосходит в обнаружении и реагировании на эмоции.
EVI 2 предназначен для более быстрого и плавного общения, обеспечивая время отклика менее одной секунды и поддерживая широкий спектр голосовых настроек. Ключевые достижения включают:
- Быстрое время отклика: EVI 2 снижает задержку на 40%, обеспечивая время отклика от 500 до 800 миллисекунд для более естественного общения.
- Эмоциональный интеллект: Интеграция голоса и языка позволяет EVI 2 понимать эмоциональный контекст, обеспечивая адекватные и эмпатические взаимодействия.
- Настраиваемые голоса: Новый метод модуляции голоса позволяет разработчикам регулировать такие параметры, как тон и пол, предлагая разнообразные голосовые варианты без риска клонирования.
- Подсказки в разговоре: Пользователи могут динамически изменять стиль речи ИИ, создавая более увлекательные взаимодействия.
- Многоязычные возможности: EVI 2 в настоящее время поддерживает английский язык, с планами добавить испанский, французский и немецкий к концу 2024 года. Удивительно, но модель самостоятельно изучила несколько языков, основываясь на данных.
Hume AI также скорректировала ценообразование для EVI 2 на уровне 0,072 доллара за минуту — на 30% меньше, чем стоимость устаревшей модели. Корпоративные пользователи могут воспользоваться объемными скидками, что улучшает масштабируемость для предприятий с высоким спросом.
EVI 2 в настоящее время доступен в бета-версии и может быть интегрирован через API Hume, при этом разработчики могут использовать те же параметры конфигурации, что и в EVI 1, до его завершения в декабре 2024 года.
В целом, EVI 2 отражает приверженность Hume AI улучшению пользовательского опыта с помощью ИИ, сосредоточив внимание на эмоциональном соответствии и отзывчивости. Будущие обновления будут включать расширенную поддержку языков и бесшовную интеграцию с другими крупными языковыми моделями и инструментами, обеспечивая разработчикам надежный ресурс для их приложений.
Помимо EVI 2, Hume AI продолжает предлагать API для измерения выражений и API для пользовательских моделей, улучшая возможности для разработчиков, работающих в области эмоционально отзывчивого ИИ.