テクノロジーの巨人、Google、Samsung、MicrosoftがPCやモバイルデバイス上で生成AIの能力を強化する中、AppleはOpenELMという新しいオープンソースの大規模言語モデル(LLM)群を発表し、スタンドアロンデバイスでの完全な動作を目指しています。OpenELMは、クラウド接続なしで動作するよう設計され、最近AIコードコミュニティ「Hugging Face」にて公開されました。このモデル群は、効率的なテキスト生成タスクに最適化された小型モデルで構成されています。
OpenELMの概要
OpenELMファミリーは8つのモデルで構成されており、うち4つは事前学習済み、残りの4つは指示調整済みです。それぞれのモデルは、270万から30億のパラメータを持つサイズに分かれています。これらのパラメータは、LLMにおける人工ニューロン間の接続を表し、数が多いほど一般的にはパフォーマンスが向上します。
事前学習ではモデルが一貫したテキストを生成できるようになりますが、主にプロンプトに基づくテキストの予測に焦点を当てています。一方、指示調整はモデルにより関連性の高い特定の応答を提供させる手助けをします。例えば、「パンの焼き方を教えて」と尋ねると、事前学習モデルは「家庭用オーブンで」と不十分な応答をするかもしれませんが、指示調整済みモデルは包括的な手順を提供します。
AppleはOpenELMモデルの重みを「サンプルコードライセンス」のもとで公開しており、これは商業利用や改変を許可していますが、未修正の再配布には附属の通知や免責事項を保持する必要があります。しかし、Appleはこれらのモデルが不正確、有害、偏見のある、または不適切な出力を生成する可能性があることに注意を促しています。
このリリースは、従来の秘密主義で知られるAppleにとって大きな転換点です。以前には、多様な機能を持つオープンソース言語モデル「Ferret」を導入し、オープンソースAIコミュニティへのコミットメントを強調しました。
OpenELMの主な特徴
OpenELM(オープンソース効率的言語モデル)は、デバイス上でのアプリケーションを重視し、Google、Samsung、Microsoftといった競合の戦略に並ぶものです。最近のMicrosoftのPhi-3 Miniモデルは、スマートフォン上で完全に動作し、ポータブルAIソリューションの進展を示しています。
OpenELMの開発はSachin Mehtaが率い、Mohammad RastegariとPeter Zatloukalが大きな貢献をしました。モデルは、270百万、450百万、11億、30億のパラメータという4つのサイズがあり、一般的に7億を超える多くの先進モデルよりも小型化されています。これらは、Reddit、Wikipedia、arXiv.orgなどのプラットフォームから集めた1.8兆トークンという膨大なデータセットで訓練され、多様な言語理解を保証しています。
パフォーマンスの洞察
OpenELMのパフォーマンスベンチマークは、特に450百万パラメータの指示バリエーションから良好な結果が得られています。注目すべきは、11億のOpenELMモデルが、The Allen Institute for AIからの最近のリリースであるOLMoを上回っており、かなり少ないトークンで事前学習を行いながらも効果的であることが示されています。
さまざまなベンチマークにおいて、事前学習済みOpenELM-3Bは以下の精度を示しています:
- ARC-C: 42.24%
- MMLU: 26.76%
- HellaSwag: 73.28%
初期のユーザーフィードバックによれば、OpenELMは信頼性のある一貫した出力を生成する一方で、創造性が欠けており、非伝統的またはNSFW(Not Safe For Work)なトピックに踏み込む可能性が低いとのことです。それに対し、MicrosoftのPhi-3 Miniは、パラメータ数とコンテキストの長さにおいてパフォーマンス指標で優位に立っています。
結論
OpenELMモデルがテストされ洗練される中、デバイス上でのAIアプリケーションを強化する可能性があります。Appleの透明性とAI領域におけるコラボレーションへのコミットメントを受けて、このオープンソースの取り組みをコミュニティがどのように活用するか注目されることでしょう。