Appleの研究者たちは、音声アシスタントの曖昧な参照と周囲のコンテキストを理解する能力を向上させる先進的な人工知能システムを発表しました。この革新は、金曜日に公開された論文で詳しく説明されており、"ReALM(リファレンス解決を言語モデリングとして)"という名前が付けられています。
ReALMは、大規模言語モデルを利用して、参照解決の複雑な作業、つまり画面上の視覚要素の特定を言語モデリングの課題に変えています。このアプローチにより、現在の手法に比べて大幅な性能向上が実現されました。
「文脈、特に参照を理解することは、会話型アシスタントにとって不可欠です。ユーザーが画面上の内容にアクセスできるようにすることは、音声アシスタントとの本物のハンズフリー体験を実現するために重要です」と研究チームは述べています。
会話型アシスタントの向上
ReALMの特筆すべき機能は、解析されたエンティティとその位置を用いて画面上のビジュアルを再構築し、視覚的なレイアウトに一致したテキスト描写を生成できる点です。この手法を利用し、参照解決のために特化した言語モデルのファインチューニングを組み合わせることで、GPT-4を超える性能を発揮することをチームは示しました。
AppleのAIシステムであるReALMは、画面上の要素への参照、例えばモックアップ内の「260 Sample Sale」リストなどを効果的に解釈し、音声アシスタントとのより豊かなインタラクションを促します。「既存のシステムに対して、様々な参照タイプを処理する際の大幅な改善が見られます。特に、私たちの最小モデルは画面上の参照精度で5%以上の向上を遂げています」と研究者たちは述べました。「私たちの大きなモデルは、GPT-4をかなり上回っています。」
実用的な応用と限界
この研究は、大規模なエンドツーエンドモデルがレイテンシや計算制約のために実用的でない環境において、フォーカスした言語モデルが参照解決のようなタスクを実行する可能性を強調しています。これらの発見を共有することで、AppleはSiriや他の製品の会話能力とコンテクスト認識能力の向上へのコミットメントを再確認しています。
しかしながら、チームは自動画面解析の課題も認識しています。複雑な視覚参照、例えば複数の画像を区別することは、コンピュータビジョンやマルチモーダル技術の統合を必要とするかもしれません。
AppleのAIへの野望
Appleは急速に人工知能研究を進めていますが、現在のところ競合他社に後れを取っています。同社の最近の進展は、視覚データと言語データを統合したマルチモーダルモデルから、AI駆動のアニメーションツールまで多岐にわたります。
慎重なアプローチが知られているAppleですが、Google、Microsoft、Amazon、OpenAIなど、生成AIを積極的に統合している競合他社からは厳しい競争に直面しています。
AIの世界が急速に進化する中、Appleは困難な立場に立たされています。今後のWorldwide Developers Conference(WWDC)では、同社が「Apple GPT」と呼ばれる新しい大規模言語モデルのフレームワークや、製品ライン全体にわたる新しいAI機能を発表すると期待されています。
CEOのティム・クックは、四半期報告の際にAppleの進行中のAIプロジェクトの詳細が今年後半に発表されると示唆しました。同社の戦略は控えめですが、そのAIへの取り組みの範囲は明らかに広がっています。
AIリーダーシップ争いが激化する中、Appleの遅れた参入は競争のプレッシャーにさらされています。それでも、同社の豊富な資源、ブランド忠誠、優れたエンジニアリング、統合された製品ポートフォリオは潜在的なメリットを提供します。
インテリジェントコンピューティングの新たな時代が迫っています。6月には、Appleがこの変革に影響を及ぼす準備が整っているかどうかが明らかになるでしょう。