あなたのサービスを「AI駆動」として誇り高く位置づけ、大規模言語モデル(LLM)を統合しています。あなたのウェブサイトのホームページでは、インタラクティブなデモや事例研究を通じて、AI駆動のソリューションがもたらす変革的な影響を紹介しており、これはグローバルな生成AIの世界への足がかりとなっています。
少人数ながら熱心なユーザーベースは、向上した顧客体験を楽しんでおり、成長の機会も見えてきています。しかし、月の初めからわずか3週間後、OpenAIから驚くべきメールが届きました。
先週は顧客と会話を重ね、製品市場のフィット感を評価していた矢先、突然、ウェブサイトがトラフィックの急増を経験し、AI駆動サービスがダウンしてしまいました。この急増は既存のユーザーを苛立たせるだけでなく、新規ユーザーも遠ざけています。迅速な解決策として使用制限の引き上げが考えられますが、それでは単一のプロバイダーに依存し、AIコストの管理を失う懸念が残ります。
「自己ホスティングすべきか?」という疑問が浮かびます。幸いなことに、Hugging FaceのようなプラットフォームではオープンソースのLLMが豊富に揃っており、自己ホスティングの選択肢があります。しかし、多くの主要モデルは数十億のパラメータを抱え、特に低レイテンシのアプリケーションにスケールするためにはかなりのリソースを必要とします。
チームが必要なインフラを構築できる自信はあるものの、その移行に伴う潜在的なコストは大きな負担です:
- 微調整コスト
- ホスティング費用
- サービングコスト
このため、重要な問いは「使用制限を増やすべきか、それとも自己ホスティングを追求すべきか?」ということになります。
LLaMA 2の評価
じっくり考えましょう。これは大きな決断です。
機械学習エンジニアに相談すると、LLaMA 2というオープンソースのLLMがGPT-3(現在のモデル)と同等のパフォーマンスを発揮することがわかりました。LLaMA 2は7億、13億、70億のパラメータからなる3つのサイズで提供されており、競争力を保つために最大サイズを選択します。LLaMA 2はbfloat16形式で訓練されており、1パラメータあたり2バイトを必要とするため、モデルの総サイズは140GBになります。
このサイズのモデルを微調整する複雑さが心配ですか?心配いりません。LoRAを使えば、約0.1%のパラメータ(約7000万)だけを微調整するだけで済み、必要メモリはわずか0.14GBになります。
微調整中のメモリオーバーヘッド(バックプロパゲーションとデータ保存を含む)を管理するためには、訓練可能なパラメータの約5倍のメモリを確保することを目指しましょう:
- 固定LLaMA 2モデルの重み:140GB(メモリオーバーヘッドなし)
- LoRA微調整重み:0.14GB * 5 = 0.7GB
この合計は微調整中の約141GBになります。
訓練インフラが不足している場合は、AWSの利用を検討してください。オンデマンドの料金は計算に対して平均約$2.80/時間で、微調整には約$67/日となり、特に短期間での微調整であれば、手頃な費用です。
サービングコストの理解
展開時には、メモリに2セットの重みを維持する必要があります:
- モデルの重み:140GB
- LoRA微調整の重み:0.14GB
合計で約140.14GBです。勾配計算をスキップするかもしれませんが、予期しないオーバーヘッドに備えて、約1.5倍のメモリを維持することが賢明です(約210GB)。AWSでは、GPU計算が時間当たり約$3.70、月間約$2,700になります。
さらに、サービスの中断を防ぐために、冗長モデルの維持を検討し、コストを約$180/日または月間$5,400(現在のOpenAIの費用にほぼ匹敵)に増加させることを計画してください。
コストの損益分岐分析
OpenAIを利用し続けることで、LLaMA 2の微調整にかかった費用を賄うための1日の処理能力が得られます。GPT 3.5 Turboの微調整は1Kトークンあたり$0.008です。仮に1単語あたり2トークンとすると、オープンソースモデルの微調整費用($67/日)を賄うためには、毎日約415万単語(約14,000ページ)の処理が必要です。この量は、多くの組織が集めるには非現実的であるため、OpenAIを使用して微調整する方が一般的には経済的です。
まとめ:所有する価値があるのはいつか?
自己ホスティングのAIは一見魅力的に見えるかもしれませんが、隠れたコストに注意が必要です。サードパーティプロバイダーはLLMの管理における多くの課題を軽減しますが、その利点も考慮に入れるべきです。
大企業にとっては年次所有コストが$65,000程度に収まるかもしれませんが、多くの企業にとっては大きな数字です。人材やメンテナンスの追加費用を見落とすと、年間総コストが$200,000〜$250,000以上に膨らむ可能性もあります。
モデルの所有はデータ管理や使用の制御を可能にしますが、ユーザーリクエストが毎日約2,220,000単語を超え、その要求を管理するためのロジスティクスが必要です。多くの利用ケースにおいては、APIを使用することによる経済的な利益が自己ホスティングを上回っている可能性があります。