アップルの研究者、ユーザー体験を向上させる画面コンテキストを「視覚化」するAIを開発

Home AIニュースアップルの研究者、ユーザー体験を向上させる画面コンテキストを「視覚化」するAIを開発

Appleの研究者たちは、音声アシスタントの曖昧な参照と周囲のコンテキストを理解する能力を向上させる先進的な人工知能システムを発表しました。この革新は、金曜日に公開された論文で詳しく説明されており、"ReALM（リファレンス解決を言語モデリングとして）"という名前が付けられています。

ReALMは、大規模言語モデルを利用して、参照解決の複雑な作業、つまり画面上の視覚要素の特定を言語モデリングの課題に変えています。このアプローチにより、現在の手法に比べて大幅な性能向上が実現されました。

「文脈、特に参照を理解することは、会話型アシスタントにとって不可欠です。ユーザーが画面上の内容にアクセスできるようにすることは、音声アシスタントとの本物のハンズフリー体験を実現するために重要です」と研究チームは述べています。

会話型アシスタントの向上

ReALMの特筆すべき機能は、解析されたエンティティとその位置を用いて画面上のビジュアルを再構築し、視覚的なレイアウトに一致したテキスト描写を生成できる点です。この手法を利用し、参照解決のために特化した言語モデルのファインチューニングを組み合わせることで、GPT-4を超える性能を発揮することをチームは示しました。

AppleのAIシステムであるReALMは、画面上の要素への参照、例えばモックアップ内の「260 Sample Sale」リストなどを効果的に解釈し、音声アシスタントとのより豊かなインタラクションを促します。「既存のシステムに対して、様々な参照タイプを処理する際の大幅な改善が見られます。特に、私たちの最小モデルは画面上の参照精度で5%以上の向上を遂げています」と研究者たちは述べました。「私たちの大きなモデルは、GPT-4をかなり上回っています。」

実用的な応用と限界

この研究は、大規模なエンドツーエンドモデルがレイテンシや計算制約のために実用的でない環境において、フォーカスした言語モデルが参照解決のようなタスクを実行する可能性を強調しています。これらの発見を共有することで、AppleはSiriや他の製品の会話能力とコンテクスト認識能力の向上へのコミットメントを再確認しています。

しかしながら、チームは自動画面解析の課題も認識しています。複雑な視覚参照、例えば複数の画像を区別することは、コンピュータビジョンやマルチモーダル技術の統合を必要とするかもしれません。

AppleのAIへの野望

Appleは急速に人工知能研究を進めていますが、現在のところ競合他社に後れを取っています。同社の最近の進展は、視覚データと言語データを統合したマルチモーダルモデルから、AI駆動のアニメーションツールまで多岐にわたります。

慎重なアプローチが知られているAppleですが、Google、Microsoft、Amazon、OpenAIなど、生成AIを積極的に統合している競合他社からは厳しい競争に直面しています。

AIの世界が急速に進化する中、Appleは困難な立場に立たされています。今後のWorldwide Developers Conference（WWDC）では、同社が「Apple GPT」と呼ばれる新しい大規模言語モデルのフレームワークや、製品ライン全体にわたる新しいAI機能を発表すると期待されています。

CEOのティム・クックは、四半期報告の際にAppleの進行中のAIプロジェクトの詳細が今年後半に発表されると示唆しました。同社の戦略は控えめですが、そのAIへの取り組みの範囲は明らかに広がっています。

AIリーダーシップ争いが激化する中、Appleの遅れた参入は競争のプレッシャーにさらされています。それでも、同社の豊富な資源、ブランド忠誠、優れたエンジニアリング、統合された製品ポートフォリオは潜在的なメリットを提供します。

インテリジェントコンピューティングの新たな時代が迫っています。6月には、Appleがこの変革に影響を及ぼす準備が整っているかどうかが明らかになるでしょう。

Salesforceの新しいEinstein Copilotを使って、データ分析を始める方法

MicrosoftとNvidiaがGTCで発表した新しい統合と革新の魅力

Most people like

Teloz

78.3K

Telozは、効率的なコールセンター管理のための高度な機能を備えた最先端のクラウドベースのコミュニケーションソリューションを提供しています。

クラウドコンタクトセンター Other

Ai Girlfriends

14K

バーチャルな仲間や魅力的なAIチャット体験の便利さを、一つのプラットフォームで体験してください。

仮想的な仲間関係 AI Chatbot

August Melon Technology

336.5K

今日の競争の激しい環境において、効果的なグローバル特許の取得と分析は、イノベーションを促進し、知的財産を守る上で重要な役割を果たします。世界中の特許データを体系的に収集・分析することで、ビジネスや研究者はトレンドを特定し、競争情報を明らかにし、情報に基づいた意思決定を行うことができます。このプロセスは戦略的な計画を強化するだけでなく、技術の進展や市場の変化に対応することで成長を促進します。グローバル特許情報の複雑さを乗り越えるための必須の手法とツールを探求し、あなたのイノベーション戦略を強化しましょう。

特許検索 Other

FreeAdCopy

85.5K

最先端のAIツールを使用して、広告戦略を革新しましょう。魅力的な広告コピーを瞬時に生成し、マーケティングコンテンツの作成方法を変革します。メッセージがオーディエンスに響くようにしつつ、時間と労力を節約できます。効果的な広告を制作するAIの力を体験し、エンゲージメントを促進し、コンバージョンを増加させましょう。

AIコピー生成ツール AI Advertising Assistant

Find AI tools in YBX