大規模言語モデル(LLM)に伴うコストの急上昇が、テクノロジー業界で大きな懸念を呼んでいます。しかし、小型モデルが有望な解決策として注目されています。USTのAIアーキテクト、アドナン・マスード氏は最近のインタビューで、「GPT-4のようなLLMの登場はパフォーマンスの大きな進歩を示しましたが、それに伴いコストも急増しています」と述べました。彼は、LLMが巨大で、数十億のパラメータを持つため、膨大な計算リソースが必要であり、この高い計算要求が大量のエネルギー消費を引き起こし、運用費用を増加させ、環境への影響を懸念させていると指摘しました。
「モデルサイズがGPUメモリのキャパシティを超えることが頻繁にあり、専門のハードウェアや複雑なモデル並列処理に依存するようになり、その結果インフラコストがさらに増大しています。」とマスード氏は追加しました。彼は、小型言語モデルがコストを削減できるだけでなく、慎重にチューニングすることで効率も向上できると強調しました。モデルの蒸留法や量子化といった手法を用いることで、小型モデルを効果的に圧縮および最適化できます。具体的には、蒸留法は小型モデルを大きなモデルの出力で学習させ、量子化はモデルの数値の精度を下げることで、より小型で高速なモデルを生成します。
小型モデルは少ないパラメータ数により、計算パワーの要求が低く、推論が速く、トレーニング時間も短縮できます。「このコンパクトなモデルは、標準的なGPUメモリ内でシームレスに統合でき、高価な専門ハードウェアの必要性を排除します。」と彼は詳しく説明しました。このような計算およびメモリ使用の削減は、エネルギー消費を減少させるだけでなく、運用コストを抑える効果もあります。また、初期段階の概念実証やプロトタイプに対してAPIを活用することで、組織は特にスケール時の単価を削減することができます。しかし、マスード氏は、大規模言語モデルにのみ依存すると、アプリケーションの急激な成長に伴いコストが急増する可能性があると警告しました。
さらに、トレーニング時間とコストを削減するだけでなく、小型言語モデルはクラウドインフラのコストを大幅に軽減できることも、EYのアメリカ新興技術責任者マット・バリントン氏が指摘しています。たとえば、特定のドメインに特化したモデルをクラウドプラットフォームでファインチューニングすることで、リソースの利用が低下します。このシフトにより、企業はAIリソースをより効果的に配分し、エンドユーザーにより近づくことが可能になります。「エッジコンピューティングでコンパクトな言語モデルを採用することで、企業は高価なクラウドリソースへの依存を減少させ、 substantialなコスト削減を実現できます」と彼は強調しました。
現在、すでにいくつかの効率的なAIモデルが展開されています。最近のモデルであるphi-1.5は、GPT-4と競うパフォーマンス能力を示しています。また、医療セクター向けに特化したMed-PaLM 2やセキュリティ用のSec-Palmモデルトも登場しています。さらに、Llama 2 70bのようなモデルは競合他社に比べ大幅に低価格で提供されており、以前のモデルよりもコストが大きく削減されています。特に、Metaの130億パラメータのLLaMAは、いくつかのベンチマークでGPT-3よりも優れた結果を示しています。
ジョンズ・ホプキンズ大学でのBabyLMチャレンジのような取り組みは、LLMに匹敵する小型モデルの有効性を向上させることを目指しています。また、Amazonは企業のデータニーズに合わせたコンパクトなモデルのマーケットプレイスを提供しています。AnyscaleやMosaicMLなどの組織も、70億パラメータのLlama 2を手頃な価格で販売しており、効果的で予算に優しいソリューションへの移行が進んでいます。
大規模言語モデルのコストが増大する中、経済的に持続可能な代替手段を見つける緊急性が高まっています。これらのモデルのトレーニングには、大きなコストが発生し、特にNvidiaのH100などのGPUは、1台あたり3万ドル以上の費用がかかります。「そのようなGPUの待機リストがあり、一部のベンチャーキャピタリストはスタートアップを資金調達に引き付けるためにこれらを利用しています」とAiseraのCEO、マッドゥ・スダカール氏は述べました。
GPUを入手する際には、高コストを相殺するために有意義な収益生成が不可欠だとスダカール氏は指摘しました。彼は、ベンチャーキャピタル企業Sequoiaの最近のブログを引用し、生成AI市場の成長を妨げる可能性がある重要な収益ギャップを強調しました。「GPUを確保した後、企業はデータサイエンティストを採用するという課題に直面しますが、その報酬パッケージはかなりの額になります」と彼は説明しました。「さらに、LLMを実運用化するには、インタラクションの処理、モデルの管理と更新、さまざまなセキュリティ問題への対応にかかる継続的なコストが大きいです。」
将来的に、マスード氏は、細かく調整されたLLMが、同等のパフォーマンスを持ちながらコストを大幅に削減できると考えています。オープンソースコミュニティはすでに、コンテキストウィンドウを大幅に拡張するLongLoRAのような革新に取り組んでいます。「現在のトレンドが示す通り、オープンソースモデルと小型LLMの合成が見られるかもしれません。これが次世代の言語モデリングエコシステムの基盤を形成することになるでしょう。」と彼は述べました。