AppleがAI機能を発表:新モデルがMistralとHugging Faceの性能を超える

新しいGPT-4o-miniの能力に対する期待が高まる中、AppleはHugging Face上で、複数のオープンデータコンパクト言語モデル(DCLM)を発表し、コンパクトAIモデルのコレクションを拡充しました。このパッケージには、70億パラメータのモデルと14億パラメータのモデルの2つが含まれており、どちらもベンチマークテストで優れた性能を発揮しています。特に大きなモデルは、Mistral-7Bを上回り、Llama 3やGemmaといった他の主要なオープンモデルにも迫る性能を示しています。

Apple MLチームのVaishaal Shankarは、これらのモデルを「最高性能のオープンソースオプション」と称しています。プロジェクトはオープンソースの原則を完全に取り入れており、モデルの重み、トレーニングコード、プレトレーニングデータセットを公開しています。

Apple DCLMモデルの概要

DataCompプロジェクトは、Apple、ワシントン大学、テルアビブ大学、トヨタ研究所の研究者たちによる共同事業です。目的は、特にマルチモーダル領域におけるAIモデルのトレーニングに向けた高品質なデータセットを作成することです。チームは標準化されたフレームワークを用いて、固定されたモデルアーキテクチャ、トレーニングコード、ハイパーパラメータ、評価方法を適用し、さまざまなデータキュレーション戦略をテストしてモデルの性能を最適化しています。

初期の実験では、機械学習モデルが大規模データセットから高品質なデータを選別する「モデルベースのフィルタリング」が、優れたトレーニングセットの構築に重要であることが明らかになりました。この手法を用いて、DCLM-Baselineデータセットが開発され、70億および14億パラメータの単方向トランスフォーマーモデルをゼロからトレーニングするのに役立ちました。

70Bモデルは、OpenLMのプレトレーニングレシピを使用して2.5兆トークンでトレーニングされ、2Kコンテキストウィンドウを持ち、MMLUベンチマークで63.7%の5ショット精度を達成しました。これは、オープンデータ言語モデルの先駆者であるMAP-Neoより6.6ポイントの改善を示し、トレーニング時の計算資源を40%削減しています。

また、このモデルのMMLU性能は、閉じたデータを持つオープンウェイトの主要モデルと比較しても近接しています。具体的には、Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、GoogleのGemma(64.3%)、MicrosoftのPhi-3(69.9%)に匹敵します。

さらに、研究者たちはモデルのコンテキストを8Kに拡張し、Dataset Decomposition手法を用いて1000億回の追加トレーニングを行った結果、CoreおよびExtendedベンチマークでさらなる性能向上が確認されましたが、MMLUの結果は一貫していました。「我々の発見は、言語モデルのトレーニングにおけるデータセット設計の重要性を強調し、データキュレーションに関する継続的な研究の基盤となります」と研究者たちはDataComp-LMに関する論文で述べています。

小型モデルの優れた性能

DCLM-7Bと同様に、小型の14Bモデルもトヨタ研究所との共同開発により、2.6兆トークンを用いて優れた性能を発揮しています。5ショットMMLU評価において41.9%を達成し、Hugging FaceのSmolLM(39.97%)を上回りました。Qwen-1.5BとPhi-1.5Bは、それぞれ37.87%と35.90%のスコアを記録しています。

現在、70BモデルはAppleのサンプルコードライセンス下で利用可能で、14BモデルはApache 2.0ライセンスに基づいて公開されており、商業利用、配布、改変が許可されています。また、7Bモデルの指示チューニング版もHugging Faceライブラリで入手可能です。

このリリースは、データキュレーションの有効性を重視した初期研究を反映しています。これらのモデルはAppleデバイス向けには設計されておらず、トレーニングデータセットのバイアスが影響したり、有害な応答を生成したりする可能性があります。

Most people like

Find AI tools in YBX