2024年春、元Google DeepMindの科学者アラン・コーウェンが共同設立した革新的なAIスタートアップ「Hume」を取り上げた際、同社は独自の音声AI技術を推進するために、SiriーズBラウンドで5000万ドルを調達したばかりでした。
Humeは、18世紀のスコットランドの哲学者デイヴィッド・ヒュームから名付けられた企業で、異文化の音声記録を自己報告による感情調査と組み合わせ、リアルな音声表現を生成し、様々な言語や方言のニュアンスを理解するAIモデルを開発しています。
最近、Humeは進化した「Empathic Voice Interface 2(EVI 2)」を発表しました。この新しいインターフェイスは、自然さ、感情的応答性、カスタマイズ性を向上させるために設計され、開発者や企業のコストを削減します。EVI 2は、レイテンシを40%削減し、従来のモデルより30%安価で提供されます。
コーウェンは、この技術を開発者がアプリケーションに統合し、信頼性が高くパーソナライズされたユーザー体験を実現することが目標であると強調しました。EVI 2を搭載した音声アシスタントは、アプリ内で直接機能し、別のAIアシスタントを必要とせずにユーザーのインタラクションを向上させます。
EVI 2の発表は、Humeを競合のAnthropicやOpenAIといった企業に対して有利な立場に置きます。特にOpenAIの「ChatGPT Advanced Voice Mode」はまだ限定的なリリース段階にありますが、コーウェンはEVI 2が感情の検出と応答において優れていると主張しています。
EVI 2は、迅速で流暢な会話を実現するために設計され、反応時間は1秒未満で、多様な音声カスタマイズをサポートします。主な改善点は以下の通りです:
- 高速反応時間:EVI 2はレイテンシを40%削減し、500ミリ秒から800ミリ秒の応答時間で、より自然な会話の流れを実現します。
- 感情知性:声と言語を統合することで、EVI 2は感情的な文脈を理解し、適切かつ共感的なインタラクションを保証します。
- カスタマイズ可能な声:新しい音声変調手法によって、開発者は音高や性別などのパラメータを調整でき、音声のクローン化によるリスクを避けつつ多様な声のオプションを提供します。
- 会話中プロンプト:ユーザーはAIの話し方を動的に変更でき、よりエンゲージングなインタラクションを促進します。
- 多言語対応:EVI 2は現在英語をサポートしており、2024年末までにスペイン語、フランス語、ドイツ語を追加する計画です。興味深いことに、このモデルはデータによって複数の言語を自律的に習得しています。
Hume AIは、EVI 2の価格を1分あたり0.072ドルに調整し、従来のモデルより30%のコストダウンを実現しました。企業ユーザーはボリュームディスカウントを利用でき、高需要企業にとってのスケーラビリティを向上させます。
現在、EVI 2はベータ版として利用可能で、HumeのAPIを介して統合できます。開発者はEVI 1と同じ設定オプションを利用可能ですが、EVI 1は2024年12月に段階的に終了される予定です。
総じて、EVI 2はユーザー体験をAIで向上させるというHume AIのコミットメントを体現しており、感情の整合性と応答性に焦点を当てています。今後のアップデートでは、言語サポートの拡張や他の大規模言語モデルやツールとのシームレスな統合を行い、開発者にとって強力なリソースを提供していく予定です。
さらに、Hume AIは、感情に応じたAIアプリケーションの開発者向けに、表現測定APIやカスタムモデルAPIを提供し、機能を強化し続けています。