AppleのReALMモデルがSiriの知性を向上させる
4月2日、Appleが新たに発表したReALMモデルが、Siriの機能を大幅に向上させると報じられました。この新しい人工知能モデルは、OpenAIの有名な言語モデルであるGPT-4.0を上回る性能を持つことが示されていますが、現時点ではSiriの画像認識能力にはばらつきがあります。
ReALMの主な特長
ReALMは、ユーザーの画面に表示されている内容と実行中のアクションを同時に理解する能力で際立っています。このモデルは、情報を以下の三つのカテゴリーに分類します。
1. 画面エンティティ: ユーザーの画面に現在表示されている内容。
2. 対話エンティティ: 進行中の会話に関連する情報。例えば、「ママに電話をかけて」といった指示に含まれる「ママ」の連絡先。
3. 背景エンティティ: ユーザーの画面の内容やアクションに直接関連しない要素。例えば、音楽の再生やアラームの通知などです。
ReALMが完全に機能すれば、Siriはさらに賢く、より使いやすくなるでしょう。研究チームはReALMとOpenAIのGPT-3.5およびGPT-4.0の性能を比較し、重要な知見を得ました。「私たちは、コンテキスト情報を与えた上で、GPT-3.5とGPT-4.0の両方をテストしました。GPT-3.5はテキスト入力のみを処理するのに対し、GPT-4は画像データを理解できるため、画面エンティティの特定能力が大幅に向上しました。」
ReALMの印象的な結果
ReALMは多様なエンティティを認識する際に、画期的な進展を示しました。最小モデルは、元のシステムと比較して、画面エンティティの認識精度が5%以上向上しました。さらに、GPT-3.5およびGPT-4.0との比較において、最小モデルはGPT-4.0に匹敵するパフォーマンスを発揮し、大きなモデルはそれを明らかに上回りました。
研究の結論の一つは、ReALMはGPT-4に比べてパラメーターが大幅に少なくても、特定のコンテキストにおけるユーザーのコマンド処理において競争力のある性能を持つ、効率的なオンデバイスエンティティ認識システムであるということです。
Appleにとっての課題は、パフォーマンスを損なうことなくこの技術をデバイスに効果的に展開することです。WWDC 2024開発者会議が6月10日に迫る中、業界はiOS 18や今後のシステムにおける新しいAI技術の発表を待ち望んでいます。