音声をテキストに変換する能力は、多くの場合過小評価されがちですが、2020年に設立されたイスラエルのテックスタートアップaiOlaの新しいAdaKWSモデルは、その迅速かつ正確なパフォーマンスを実現しています。この技術はスピーチ認識に特化しており、OpenAIのWhisper AI音声認識モデルを強化し、16言語全体でキーワード検出精度を6.2%、英語のみでは16%以上向上させました。aiOlaのデータによると、AdaKWSはキーワードスポッティングにおいて94.6%の精度を達成しており、Whisperの88.4%を上回っています。このモデルは100言語でほぼリアルタイムのトランスクリプションをサポートしています。
これらの数字は一見控えめに思えるかもしれませんが、80パーセンタイルから90パーセンタイルへの顕著な飛躍を示しており、技術が特定のニッチな応用から、医療や食品安全などの厳しく規制された分野においても幅広い利用ケースに移行することを意味します。さらに、AdaKWSは、Whisper-Large V2モデルに比べ、約160倍の速さでテキストをトランスクリプトすることができます。
aiOlaのCEO兼共同創設者であるアミール・ハラマティは「キーワードを特定できる能力は、パッケージの損傷レポートの提出から食品工場での安全検査の完了まで、さまざまな業界でのプロセスの自動化を可能にし、音声をアクションに変える」と語りました。
多様なビジネスアプリケーション
音声からテキストへのAI技術はカスタマーサービスの通話のトランスクリプション作業に関連付けられがちですが、aiOlaの技術はより一般的ではない分野でも進展を見せています。メディアデモンストレーションでは、ハラマティが医療分野でのシステムの能力を示しました。医療技術のスピーカーが患者監視機器からの指標を読み上げると、AdaKWSモデルは数秒で複雑なテキストフォームを自動的に入力し、手動入力の必要を排除しました。
さらに、aiOlaはスーパーマーケットの冷蔵庫の温度監視への応用も強調しました。人間が音声で測定値を報告できることで、クライアントは年間11万時間以上を節約し、手動データ入力に費やす時間を大幅に削減しています。AdaKWSの可能性は業界のリーダーから注目を集めており、ハラマティはオラクルのCEOラリー・エリソンからの問い合わせを受け、医療記録への適用に興味を示されたと述べています。
AdaKWS音声からテキストへの仕組み
AdaKWSは、ビジネスワークフローに容易に統合できる最先端のキーワードスポッティング手法を採用し、音声コマンドによる自動化を実現します。この技術は機械学習アルゴリズムとして機能しており、OpenAIのWhisperなどの既存の音声認識モデルを強化し、音声を解釈するエンコーダと音声をテキストに変換するデコーダの間に織り込まれています。
aiOlaの最高科学責任者であるジョセフ・ケシェットは、「私たちの重点は最適化です」と説明しました。従来のモデルとは異なり、新しいキーワードのために大量の再学習を必要とせず、AdaKWSは100以上の言語と方言に迅速に適応します。この適応性は、企業環境において理想的です。
「業界特有の用語は一般的であり、コミュニケーションを支配することがあります」とハラマティは述べ、ケシェットは「私たちのシステムは、他の言語に跨がる言葉の潜在スペースにおいて使われるキーワードの精度を確保するように訓練されています」と付け加えました。AdaKWSは、多言語での相互作用が行われる組織に特に役立ち、業界特有の専門用語にも迅速にカスタマイズできます。ユーザーはモデルが独立して学習できるようにキーワードリストを提出し、話されたバージョンに事前露出がなくても用語を検出します。モデルは数時間内に使用可能となり、新しい言語、プロセス、キーワードを迅速に学習します。
16言語にわたるベンチマークテストでは、AdaKWSがWhisperの精度を上回るだけでなく、複雑な用語を効率的に処理し、より少ない計算リソースで動作することが示されました。基礎研究は2023年9月に科学論文として発表されています。
業務オペレーションの向上
企業が複雑なデータ管理やコミュニケーションタスクに効率的で信頼性の高いソリューションを求める中、aiOlaのAdaKWSは業務を効率化し、オーバーヘッドを削減する重要な機会を提供します。この技術は、ユーザーとユースケースに基づくサブスクリプション型のソフトウェアサービス(SaaS)モデルとして、ウェブおよびモバイルアプリケーションを通じて利用可能です。
aiOlaの音声AIにおける進歩は、新たな業界基準を設定するだけでなく、日常のビジネスプロセスへのAI統合を促進する革新の道を開いています。ハラマティは「私は混乱を楽しみますが、ほとんどの人が混乱を望まないことに気づきました」と結論を述べ、AdaKWSが既存の業務オペレーションを置き換えるのではなく、強化し改善することを目指していることを強調しました。