企業は生成AIに対して楽観的であり、チャットボットから検索ツールに至るまで、さまざまな用途のアプリケーション開発に数十億ドルを投資しています。ほぼすべての大手企業が生成AIのプロジェクトを進めている一方で、AIにコミットすることと実際に効果的に導入することには重大な違いがあります。
カリフォルニアのスタートアップMaximは、元GoogleおよびPostmanの幹部であるヴァイバヴィ・ガンガワールとアクシャイ・デオによって設立され、生産過程でのAI導入のギャップを埋めるためのエンドツーエンド評価・監視プラットフォームを発表しました。また、Elevation Capitalや他のエンジェル投資家から300万ドルの資金を調達したことも発表しています。
Maximは、大規模言語モデル(LLM)を活用したAIアプリケーション開発において、開発ライフサイクル全体を通じてさまざまなコンポーネントを監視するという重要な課題に取り組んでいます。小さなエラーでもプロジェクトの信頼性を損なう可能性があるため、納品の遅延を引き起こしかねません。Maximのプラットフォームは、リリース前および生産後のAIの質と安全性をテストし改善することに重点を置き、組織がAIアプリケーションのライフサイクルを効率化し、高品質な製品を迅速に提供できる基準を確立します。
生成AIアプリケーション開発の課題
従来のソフトウェア開発は、テストと反復の標準化された手法に従っており、チームは品質とセキュリティを向上させる明確な道筋を持っていました。しかし、生成AIの導入により多くの変数が導入され、非決定論的なパラダイムが生まれました。開発者は使用するモデルやデータ、ユーザーの質問形成を管理しながら、品質、安全性、パフォーマンスを確保しなければなりません。
組織は通常、評価の課題に対して、すべての変数を監視する専門家を雇うか、内部ツールを開発する方法で対処しますが、どちらもコストがかさむことがあり、コアビジネスから注意が逸れてしまう可能性があります。
このニーズに応えるため、ガンガワールとデオは、生成AIスタックのモデルとアプリケーション層のギャップを埋めるためにMaximを立ち上げました。このプラットフォームは、プロンプトエンジニアリングやリリース前テストからリリース後の監視や最適化に至るまで、AI開発ライフサイクル全体での包括的な評価を提供します。
ガンガワールは、Maximのプラットフォームを実験スイート、評価ツールキット、可視化、データエンジンの4つのコアコンポーネントから成ると説明しています。
実験スイートには、プロンプトCMS、IDE、視覚的ワークフロービルダー、外部データソースへのコネクタが含まれており、チームは効果的にプロンプト、モデル、パラメータを反復できます。たとえば、チームは顧客サービスのチャットボット用に異なるモデルで異なるプロンプトを試すことができます。
評価ツールキットは、AI駆動および人間による評価のための統一フレームワークを提供し、包括的なテストを通じて改善や後退を定量的に評価できます。結果は、トーン、正確性、有害性、関連性などの指標をカバーするダッシュボードで視覚化されます。
可視化はリリース後のフェーズで重要であり、リアルタイムでの生産ログ監視と自動評価を可能にし、ライブでの問題を特定し解決することで品質基準が維持されます。
ガンガワールによれば、「ユーザーは生産ログに対する品質、安全性、セキュリティ信号の自動制御を設定できます。また、パフォーマンス、コスト、品質など重要な指標の後退に対してリアルタイムアラートを設定することも可能です。」
可視化スイートによる洞察を活用することで、ユーザーは迅速に問題に対処できます。データ品質が問題となる場合、データエンジンはデータセットのキュレーションと強化をシームレスに行え、ファインチューニングが実現します。
アプリケーションの展開を加速
まだ初期段階にあるものの、Maximは「数十社」の初期パートナーに対し、AI製品のテスト、反復、展開を従来の5倍の速度で支援したと主張しています。対象となる業界はB2Bテクノロジー、生成AIサービス、金融(BFSI)、教育(Edtech)などで、評価の課題が特に顕著です。今後、企業向けの機能を強化し、中堅企業やエンタープライズクライアント向けにプラットフォームの能力を拡充する計画です。
Maximのプラットフォームには、役割に基づくアクセス制御、コンプライアンス、チームコラボレーション、仮想プライベートクラウドでの展開オプションなど、企業向けの機能が含まれています。標準化されたテストと評価へのMaximのアプローチは注目に値しますが、DynatraceやDatadogのような資金力のある競合他社に対抗するという課題も抱えています。
ガンガワールは、多くの競合がパフォーマンスモニタリング、品質、可視化のいずれかに特化しているのに対し、Maximはすべての評価ニーズを1つの統合プラットフォームに集約することを目指していると述べています。
「開発ライフサイクルでは、テスト関連のニーズの包括的な管理が必要です。それが持続可能なアプリケーションの生産性と品質の大幅な向上につながると信じています。」と彼女は述べています。
今後、Maximはチームと運営能力の拡大を計画しており、AI製品開発に焦点を当てた企業とのパートナーシップを強化していく考えです。将来的には、品質とセキュリティに関する独自のドメイン特化型評価や、多モーダルデータエンジンの開発を予定しています。