アマゾンは、アレクサの自然言語処理と音声機能に大幅な向上を図り、バーチャルアシスタントがより人間らしい対話を行えるようにする新しいモデルを導入しました。この進展は、5月のプレゼンテーションで初めて示唆されました。
新機能の中で、アレクサはAPI呼び出しを行う能力を持つようになり、情報へのアクセスが向上し、パーソナライズされた体験を提供します。また、アシスタントの知識基盤が強化され、信頼性の高い事実に基づく応答が可能になりました。さらに、アマゾンはアレクサの自動音声認識(ASR)システムを刷新し、コアアルゴリズムとハードウェアを強化しました。これにより、数千時間にわたる多言語の音声データで訓練されたより広範なテキストから音声へのモデルに移行しました。この進化したASRシステムは、会話の途中での中断から巧みに回復する機能も搭載しており、よりスムーズなやり取りを実現しています。
さらに、アレクサは新しい音声対話モデルを獲得し、笑いやユーザーの感情トーンを反映する能力が追加されました。例えば、ユーザーが興奮を示すと、アレクサもそれに応じた反応を示し、対話に感情的なニュアンスを加えます。
これらの革新は、アマゾンのシニアバイスプレジデントであるデイブ・リンプによって、バージニア州アーリントンにある同社の新しい本社で発表されました。リンプは、アレクサとの対話が「まるで人間と会話するかのように設計されている」と強調し、アシスタントの会話能力が大幅に向上したことを示しました。
さらに注目すべき新機能は、カメラを備えたデバイスの画面を見るだけでアレクサを起動できる点で、ウェイクワードが不要になります。この機能は、最新のSiriのアップデートと比較されることが多く、音声モデルと連携した新しいデバイス内の視覚処理を活用して、ユーザーがアレクサに話しかけているのか、誰か他の人に話しかけているのかを正確に判断します。
これらの印象的な機能は、今後数か月以内に展開され、CEOのアンディ・ジャシーが「世界最高のパーソナルアシスタント」を創るというビジョンに沿ったものです。この使命を支援するために、アマゾンは野心的な人工知能プロジェクトに特化した中央チームを設立しました。このチームは、アレクサのチーフサイエンティストであり、ジャシーCEOに直接報告するロヒット・プラサッドが率いており、大規模な言語モデルの開発に取り組むことで、アレクサの機能とユーザー体験をさらに向上させることを目指しています。