aiOla、Whisper-Medusaを発表:革新的な音声認識モデル
イスラエルのAIスタートアップ「aiOla」が、Whisper-Medusaという画期的なオープンソースの音声認識モデルを発表しました。このモデルは、OpenAIの人気音声認識システム「Whisper」よりも50%速く動作します。
Whisper-Medusaは、独自の「マルチヘッドアテンション」アーキテクチャを活用しており、複数のトークンを同時に予測することで速度を大幅に向上させています。モデルのコードと重みはMITライセンスのもと、Hugging Faceで公開されており、研究や商業利用が可能です。aiOlaは、このオープンソースの解決策を通じてAIコミュニティ内での革新や協力を促進しています。「開発者や研究者が私たちの成果を基にさらに大きな速度の向上を達成できるでしょう」と、aiOlaの研究担当副社長ギル・ヘッツは述べています。この進展は、ユーザーの問い合わせにほぼリアルタイムで理解し、応答するAIシステムの実現を助けるかもしれません。
Whisper-Medusaの特長
基盤モデルがますます多様なコンテンツを生み出す中、高度な音声認識の重要性は依然として大きいです。この技術は、医療やフィンテックなど、さまざまな分野で不可欠であり、トランスクリプションや高度なマルチモーダルAIシステムの基盤を形成しています。昨年、OpenAIのWhisperモデルはユーザーの音声をテキストに変換し、大規模言語モデル(LLM)による処理を可能にしました。
Whisperは、複雑なスピーチパターンやアクセントをほぼリアルタイムで処理する音声認識のゴールドスタンダードとなり、月間500万件以上のダウンロードを記録し、数万のアプリケーションを支えています。 現在、aiOlaはWhisper-Medusaが更に高速な音声認識とトランスクリプションを実現することを主張しています。Whisperのアーキテクチャにマルチヘッドアテンションメカニズムを追加することにより、モデルは各パスで1トークンではなく10トークンを予測でき、予測速度とランタイム効率が50%向上しています。
Whisper-MedusaとOpenAI Whisperの比較
Whisper-Medusaは速度向上を実現しつつ、元のWhisperモデルと同水準の精度を保持しています。ヘッツは「私たちは、自動音声認識(ASR)モデルにこのアプローチを適用し、公開研究用にリリースした業界初の事例です」と述べました。「LLMの速度を改善する方が、ASRシステムを最適化するよりも容易です。連続した音声信号やノイズの複雑さは独自の課題を提起しますが、マルチヘッドアテンションアプローチにより、精度を犠牲にすることなく予測速度をほぼ倍増させました」と彼は説明しています。
Whisper-Medusaの訓練手法
aiOlaは、Whisper-Medusaの訓練に弱監督学習技術を利用しました。Whisperの主要コンポーネントを固定し、モデル自体が生成した音声トランスクリプションをラベルとして用いることで、追加のトークン予測モジュールを訓練しています。
ヘッツは、最初に10ヘッドモデルを使用し、将来的には20トークンを同時に予測できる20ヘッド版に拡張する計画であると述べ、「この方法により、一度に全音声を効率的に処理でき、複数回のパスが不要になり、速度が向上します」と語りました。
特定の企業への早期アクセスについては詳細を明かさなかったものの、実際の商業データの使用事例で性能を検証したことを確認しました。音声アプリケーションにおける認識とトランスクリプション速度の向上により、AIアシスタントが数秒で応答する未来が期待されます。「リアルタイムの音声からテキストへのシステムは、業界に多大な恩恵をもたらし、生産性を向上させ、コストを削減し、コンテンツ配信を加速させるでしょう」とヘッツは結論づけました。