Whisper v3: OpenAIの音声認識技術の革新
OpenAIの音声認識技術が大きく進化したことで、Whisper v3は言語理解を向上させ、エラー率を大幅に低下させました。これは、500万時間もの訓練データを活用して実現されており、顧客サービスの向上を目指す企業に最適なオープンソースモデルです。最近開催されたOpenAI DevDayで発表されたWhisper v3は、複数の言語での性能が向上しており、特に広東語専用の言語トークンが新たに導入されました。
Whisperは2022年9月に初めて登場し、音声スニペットをテキストに変換する機能を持っています。音声翻訳、言語識別、音声活動検出などの機能を提供し、ボイスアシスタントに最適なツールとされています。Whisperを使用することで、企業は顧客通話を簡単に文字起こししたり、音声コンテンツのテキスト版を作成したりできます。また、OpenAIの新しいテキスト生成モデルであるGPT-4 Turboと統合することで、音声認識とテキスト生成をシームレスに組み合わせた強力なデュアルモーダルアプリケーションが開発可能です。
OpenAIの開発者経験担当責任者、ロマン・ユエは、これらの統合の可能性を示しました。Whisperを用いて声をテキストに変換し、GPT-4 Turboモデルと組み合わせることで、スマートアシスタントを作成するデモを行い、新しいテキスト読み上げAPIの機能も活用しました。
Whisper v3は、680,000時間から500万時間へと飛躍的に増加した訓練データの量だけでなく、その洗練された訓練手法でも際立っています。これにより、音声データの約100万時間が曖昧にラベル付けされ、4百万時間は予測モデリング技術を通じて擬似ラベル付けされています。このモデルは、トランスフォーマーアーキテクチャを利用しており、音声データを表すトークンの並びを処理して意味のあるテキスト出力を導き出します。音声入力を細分化して処理し、話されている内容を正確に特定します。
Whisper v3は様々なアプリケーションニーズに応じて複数のサイズで提供されます。最小のモデル「Tiny」は3900万パラメータを持ち、約1GBのVRAMで動作します。ベースモデルは7400万パラメータを含み、前回のバージョンと比べて約16倍の処理速度を誇ります。最も大きな「Large」モデルは、なんと15億5000万パラメータを搭載しており、デプロイには約10GBのVRAMが必要です。
Common Voice 15やFleursといった音声ベンチマークでの広範なテストにより、Whisper v3は2022年12月に発表された従来のバージョンに比べて大幅にエラー率が低下したことが示されています。OpenAIのCEO、Sam Altmanは、基調講演の中で「本当に気に入っていただけると思います」と自信を示しました。
Whisper v3へのアクセス方法
Whisper v3は、Hugging FaceやGitHubなどのプラットフォームを通じて公開されており、MITライセンスの下で商業利用が可能です。これにより、企業は特定の条件(著作権や許可に関する通知を含む)を遵守する限りにおいてWhisper v3を実装できます。
ただし、このライセンスは広範な使用を許可するものの、保証がなく、実装に関連する問題に対する著作者や著作権保有者の責任を制限しています。Whisperはオープンソースとして提供されていますが、OpenAIは最新の音声認識モデルをAPIを通じてサポートする計画を発表しています。
Whisper v3はパフォーマンスの大きな飛躍を遂げていますが、OpenAIは訓練データが限られている言語では精度が低下する可能性があることも認めています。また、異なるアクセントや方言がエラー率の増加に寄与するという課題も存在しています。