Microsoft BuildやGoogle I/Oの後、Appleは2024年のWorldwide Developers Conferenceでそのデバイス内AI機能を披露することに大きな期待が寄せられていました。Appleは、全てのデバイスにおいて生成AIを効果的に統合し、この分野での素晴らしい進展を示しました。
Appleのデモで際立った機能は、広範なデバイス内処理能力です。先進的なプロセッサと豊富なオープンリサーチを活用することで、Appleはスマートフォンやコンピュータ上で、高品質で低レイテンシのAI機能を提供しました。Appleのデバイス内AIに関する主なポイントは以下の通りです。
Appleのモデル概要
AppleのState of the Unionプレゼンテーションおよび6月10日に公開されたブログによると、Appleは30億パラメータのモデルを使用しています。具体的なベースモデルは明らかにされていませんが、Appleは最近、リソース制約のあるデバイス向けに最適化された3億パラメータ版を含むOpenELMファミリーの言語モデルなど、いくつかのオープンモデルを導入しました。
OpenELMは、パラメータの数を増やすことなくモデルの品質を向上させるために修正されており、Appleの基盤モデルがOpenELM-3Bの特別なバリエーションである可能性を示唆しています。このモデルは、AppleBotによって収集されたライセンスデータと公開データを含む18兆トークンのオープンデータセットでトレーニングされています。
ライセンスデータパートナーシップ
Appleは、Shutterstockとの2500万〜5000万ドルの画像ライセンス契約や、大手ニュース及び出版機関との5000万ドルの契約交渉など、ライセンスデータのためのパートナーシップを確立しています。
トレーニングおよび最適化技術
このモデルは、人間のフィードバックによる強化学習(RLHF)や教員委員会による拒否サンプリングを使用して、指示に従う能力を高めるために微調整されています。RLHFは、人間が注釈を付けたデータを用いてユーザーの好みに基づいて言語モデルを改善します。拒否サンプリングは複数のトレーニング例を生成し、モデル更新用の最良の結果を選択する手法です。
技術的最適化
Appleは、リソース効率を維持しつつモデルのパフォーマンスを向上させるため、さまざまな技術を導入しています。基盤モデルは、Google Researchにより開発された「グループクエリアテンション」(GQA)を採用しており、最小限のメモリと計算リソースで推論速度を加速します。また、タブを使用した重み圧縮「パレット化」と、パラメータごとのビット数を削減する「量子化」も行われています。
これらのモデルは、M1以降のチップ及びA17 Proチップを搭載したiPhone 15 ProおよびPro Max向けに最適化されています。これは、昨年導入されたフラッシュ内の大規模言語モデル(LLM)など、Appleのチップ向けに特化した最適化技術が使用されていることを示唆します。
パフォーマンス指標
iPhone 15 Proでの報告によれば、プロンプトトークンあたりのファーストトークンまでのレイテンシは約0.6ミリ秒で、生成率は毎秒30トークンです。たとえば、1,000トークンのプロンプトを送信すると、0.6秒以内に応答があり、その後は毎秒30トークンを生成します。これは、素晴らしいパフォーマンスを示しています。
低ランク適応によるカスタマイズ
Appleのエンジニアは、重複するモデルを作成せずに機能を強化するために、低ランク適応(LoRA)アダプタを使用して微調整されたバージョンを開発しました。LoRAは特定のタスクのために小さな重みのサブセットを更新し、各アダプタは100メガバイト未満で、校正、要約、メール返信などのさまざまな機能を保持することができます。
パフォーマンスの評価
Appleの評価によれば、そのモデルは同様のサイズやそれ以上のモデル、例えばGemma-2B、Mistral-7B、Phi-3B-Miniを一般的に上回る性能を示しています。
要するに、Appleのデバイス内AIは、コンパクトなモデルと効果的な最適化技術、高品質なデータ、強力なハードウェアを組み合わせる可能性を示しています。正確性とユーザー体験のバランスを取る上で大きな進展を遂げたAppleは、今秋の消費者向け展開がどのようになるか注目されます。