アップルの研究者が発表した画期的なAIシステム:GPT-4を超える革新技術とは

Appleの研究者たちは、音声アシスタントの命令理解と応答能力を大幅に向上させることを目的としたAIシステム「ReALM(Reference Resolution as Language Modeling)」を開発しました。この最新の研究論文では、ReALMが大規模な言語モデルを活用して、参照解決の課題に取り組む様子が紹介されています。

ReALMは、画面上の曖昧な参照を解釈し、文脈に基づいて対話を理解することに優れています。これにより、デバイスとのやり取りが直感的かつ自然になります。参照解決は自然言語理解の重要な要素であり、ユーザーが会話中に代名詞や間接的な参照を使っても混乱を招かないようにします。しかし、デジタルアシスタントにとって、さまざまな言語的手がかりや視覚情報を処理することは複雑な課題でした。

ReALMは、この複雑なプロセスを単純な言語モデルタスクに変換し、会話内の視覚要素についての理解を深めます。ReALMはテキスト表現を通じて画面の視覚的レイアウトを再構築し、画面上のエンティティとその位置を分析して、画面の内容と構造を反映するテキストフォーマットを生成します。Appleの研究者たちは、特にファインチューニングされた言語モデルが、OpenAIのGPT-4を含む従来の手法よりも参照解決タスクで優れた結果を示すことを発見しました。

この技術の進歩により、ユーザーは画面に表示された内容に基づいてデジタルアシスタントと効率的に対話できるようになり、詳細な説明をする必要がなくなります。これにより、ナビゲーション情報を運転中に提供したり、障害を持つユーザーにとってよりシンプルで正確な間接的相互作用を可能にするなど、音声アシスタントの用途が拡大します。

最近、Appleは人工知能に関連するいくつかの研究を発表しました。その中には、テキストと視覚情報をシームレスに統合するための大規模言語モデルのトレーニング手法が含まれており、先月公開されました。6月に開催予定のWWDCカンファレンスでは、Appleが新たなAI機能の数々を発表することへの期待が高まっています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles