生成AI基盤モデルによるソリューション開発
現在、私たちは生成AI基盤モデルの探求を始めてから1年以上が経過しました。最初は大規模言語モデル(LLM)に注目していましたが、今では画像や動画を理解し生成できるマルチモーダルモデルの台頭を見ることで、「基盤モデル」(FM)という用語がより適切になっています。分野が進化する中で、私たちはこれらのソリューションを効果的に生産に移行し、多様なニーズに応じた情報を提供することで意味のある影響を生み出すパターンを特定しています。LLMから得られる複雑さと価値を高める数多くの変革的な機会が控えており、これらの進展には慎重なコスト管理が必要です。
基盤モデルの理解
FMを効果的に活用するためには、その内部の仕組みを理解する必要があります。これらのモデルは、言葉、画像、数字、音声をトークンに変換し、ユーザーを引き付けるために最も関連性の高い「次のトークン」を予測します。過去1年間のフィードバックは、Anthropic、OpenAI、Mixtral、Metaによって開発されたコアモデルを改善し、ユーザーの期待により近づけました。
トークンのフォーマットの重要性を認識することは、パフォーマンス向上に寄与しています。たとえば、YAMLはJSONよりも性能が優れています。また、コミュニティはモデルの応答を向上させるための「プロンプトエンジニアリング」技術を開発しました。具体的には、少数の例を提供することでモデルの出力をガイドする少数ショットプロンプトや、複雑な問い合わせに対してより詳細な回答を引き出すための思考の連鎖プロンプトが効果的に使用されています。多くの生成AIチャットサービスのアクティブユーザーは、これらの向上を体感していることでしょう。
LLMの能力向上
LLMの情報処理能力を拡大することは、進展の基盤です。最先端のモデルは、なんと100万トークンを処理でき、これは1冊の大学教科書に相当します。これにより、ユーザーはコンテキストの関連性をこれまで以上に制御できるようになります。
たとえば、AnthropicのClaudeを使って、700ページにわたる複雑な指導文書を医師が navigatedし、関連する入試問題に対して85%の正答率を達成しました。さらに、キーワードに基づかず、概念に基づいて情報を取得する技術も知識ベースを強化しています。
新たに登場した埋め込みモデル、例えばtitan-v2やcohere-embedは、さまざまなソースを広範なデータセットから得られるベクトルに変換することにより、関連するテキストの取得を可能にしています。また、データベースシステムにおけるベクトルクエリの統合や、Turbopufferのような特殊なベクトルデータベースは、パフォーマンスの低下を最小限に抑え、膨大な文書のコレクションをスケールすることを実現しています。
しかし、これらの進展にもかかわらず、ソリューションのスケーリングは依然として課題であり、LLMアプリケーションにおいてセキュリティ、スケーラビリティ、レイテンシ、コスト効率、および応答品質を最適化するために、さまざまな分野での協力が不可欠です。
Gen 2.0とエージェントシステムによる革新
最近の改善がモデルの性能とアプリケーションの実現可能性を向上させている一方で、新たな進化の段階が近づいています。それは、複数の生成AI機能を統合することです。
最初の段階では、手動のアクションチェーンを作成します。たとえば、BrainBox.aiのARIAシステムは、機器の故障の画像を解釈し、関連する知識ベースにアクセスし、IoTデータフィードをクエリして解決策を提案します。しかし、これらのシステムは、開発者によるハードコーディングした定義が必要であったり、単純な意思決定経路に制限されたりするなど、論理に制約があります。
次の段階のGen AI 2.0では、LLMを駆動型の推論エンジンとして使用し、マルチモーダルモデルを活用したアジャイルエージェントシステムが構想されています。これらのエージェントは、問題を管理可能なステップに分解し、実行に適切なAI駆動ツールを選択し、その段階での結果に基づいてアプローチを適応させます。
このモジュール形式のアプローチは柔軟性を高め、システムが複雑なタスクに取り組むことを可能にします。たとえば、Cognition LabsのDevin.aiは、エンドツーエンドのプログラミングタスクを自動化し、大規模な人的介入を削減しながら迅速にプロセスを完了します。また、AmazonのQ for Developersは、自動的なJavaアップグレードを促進します。
医療分野では、医療エージェントシステムがEHRデータ、画像、遺伝情報、臨床文献を統合して包括的な治療提案を生成することが期待されます。さらに、複数の専門エージェントが協力して詳細な患者プロファイルを生成し、自律的に複雑な知識プロセスを実行することで、人間の監督を減少させることが可能です。
しかし、これらの高度なシステムは、大量のトークンを送信するため、LLMのAPIコールによるコストがかかる可能性があります。従って、ハードウェア(例:NVIDIA Blackwell)、フレームワーク(Mojo)、クラウド(AWSスポットインスタンス)およびモデル設定(パラメータサイズ、量子化)にわたるLLMの最適化が同時に進展することが重要です。
結論
組織がLLMの導入を進める中で、高品質な成果を迅速かつ効率的に達成することが求められます。変化のペースが速いため、生成AIソリューションの最適化に経験豊富なチームとの連携が成功の鍵となります。
ライアン・グロスはCaylentのデータおよびアプリケーションのシニアディレクターです。