Appleの研究者たちは、テキストと視覚情報をシームレスに統合する画期的な大規模言語モデル(LLM)のトレーニング手法を開発しました。この革新については、「MM1: マルチモーダルLLMへの事前学習手法、分析と洞察」と題された論文で詳しく説明されています。この研究は、より賢く多用途な人工知能システムの創出への新たな道を示しています。
Appleは、画像キャプションペア、交互に配置された画像-テキストドキュメント、純粋なテキストデータを含む多様なデータセットを用いることで、MM1モデルが画像キャプション生成、視覚的質問応答、自然言語推論といったタスクにおいて優れた精度を示すと主張しています。この研究は、さまざまなトレーニングデータタイプとモデルアーキテクチャの組み合わせに焦点を当てることで、機械が視覚的および言語的な手がかりに基づいて理解し応答する能力を強化し、AIの新たな基準を設定しています。こうした能力は、複雑な画像の説明や視覚要素に関連する質問への回答など、世界を繊細に解釈する必要があるタスクにとって重要です。
論文では、MM1の印象的な文脈学習能力にも焦点が当てられており、特に30億パラメータを有する構成においてその特性が際立っています。特筆すべきは、その「思考の連鎖」による推論能力であり、モデルはわずか数例を用いて複雑なオープンエンドの問題を解決できます。
この研究は、競争が激化する中でAppleがAIの能力を強化するための重要な一歩を示しています。最近の報告によれば、AppleはGoogleと話し合いを行い、iPhoneのiOS 18向けの新機能をサポートするために、Geminiの生成LLMをライセンス供与する方向で進めているということです。