アップル研究チーム、画面内容を理解する「ビジョン」機能搭載のAIシステムを発表

Appleの研究者たちは、デジタルアシスタントが曖昧な言及や対話の文脈を解釈する能力を向上させる画期的なAIシステム「ReALM(Reference Resolution As Language Modeling)」を開発しました。この進歩により、より自然な対話が実現します。

ReALMは大規模な言語モデルを活用し、複雑な参照解決タスクを言語モデリングの課題に変換します。たとえば、画面上の視覚要素の理解などです。Appleの研究チームによれば、このアプローチは従来の方法を大幅に上回ります。研究者は「文脈と参照を理解することは会話型アシスタントにとって極めて重要です。ユーザーが画面上のコンテンツにクエリできるようにすることは、真のハンズフリー体験を実現するための重要なステップです」と述べています。

ReALMの大きな進歩の一つは、位置解析を使用して画面上の要素を再配置する能力です。これにより、視覚的なレイアウトを保持しつつテキスト表現が生成されます。この方法は、参照解決専用に微調整された言語モデルと組み合わせることで、GPT-4を上回る性能を示しました。研究者たちは「当社のシステムは様々なタイプの参照において劇的な性能向上を達成し、小型モデルでは5%以上の絶対的な改善を達成しましたが、大型モデルはGPT-4を大幅に上回りました」とコメントしています。

この研究は、特化した言語モデルが参照解決タスクにおいて持つ可能性を浮き彫りにしています。実際のシナリオでは、大規模なエンドツーエンドモデルの展開が、待ち時間や計算能力の制約から実用的でない場合があります。これらの発見は、AppleがSiriや他の製品の対話機能と文脈理解を高めるために取り組んでいる姿勢を示しています。

ただし、研究者たちは自動画面解析にも限界があると警告しています。複数の画像を区別するなど、より複雑な視覚参照の扱いには、コンピュータビジョンやマルチモーダル技術の統合が必要になるかもしれません。

AppleはAI領域での重要な進展を進めていますが、この急速に変化する市場では競合他社に遅れをとっています。同社の研究所は、マルチモーダルモデルやAI駆動のツール、高性能な特化型AI技術の革新を続けており、人工知能分野での先導的な姿勢を反映しています。

来る6月のWWDC(Worldwide Developers Conference)では、Appleが新たな大規模言語モデルフレームワークや「Apple GPT」チャットボット、その他AI機能を発表することが期待されており、変化する市場の動向に素早く適応しようとしています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles