ガリレオのルナがGenAI評価を革新:97%のコスト削減と11倍のスピード向上

ガリレオが企業向けAI評価を変革する「ルナ」を発表

ガリレオは、企業向けの生成AIのリーダーとして、「ガリレオ ルナ」という革新的な評価基盤モデル(EFM)スイートを導入しました。この製品は、企業が生成AIシステムを評価する方法を根本的に変革することを目的としています。ルナは、生成AIの生産環境における導入を妨げていたスピード、コスト、精度という重要な課題に対処します。

「ガリレオは、既存の生成AI評価手法の問題点を克服するためにルナを開発しました。これらの手法はしばしば遅く、コストがかかり、不正確です」と、ガリレオの共同創設者兼CEOであるヴィクラーム・チャッタルジは述べています。「我々は、生産環境における超低遅延でコスト効果が高く、精度の高い評価の必要性を認識しました。」

AI評価における重要なマイルストーン

ルナの導入は、2021年初頭から企業用の生成AIを推進してきたガリレオにとって重要な一歩です。ルナの開発には、約1年にわたる厳密な研究開発が結実しています。

ルナは、ベンチマークテストで0.78のAUROCスコアを達成し、GPT-3.5、トゥルーレンズ・グラウンデッドネス、RAGAS・フェイスフルネスなどの競合製品を上回る優れた性能を誇っています。

評価基準を再定義する特化型モデル

ルナの革新の中核を成すのは、特定の評価タスク(幻覚検出、コンテキスト品質評価、データ漏洩防止、悪意のあるプロンプトの特定など)向けに設計された小型言語モデルです。この特化したアプローチにより、ルナはスピード、コスト、精度の三つの重要指標で卓越した性能を発揮します。

「特訓された小型言語モデルを活用することで、ルナの評価はGPT-3.5を用いた評価よりも97%コストが安価で、11倍のスピードを達成しています」とチャッタルジは説明しました。また、ルナは幻覚や個人識別情報(PII)などの問題検出において、従来の方法より最大20%性能を向上させています。

1ヶ月に100万クエリを評価するコスト分析では、ルナはわずか175ドルで済み、GPT-3.5(6,248ドル)、RAGAS・フェイスフルネス(7,994ドル)、トゥルーレンズ・グラウンデッドネス(16,641ドル)よりも圧倒的にコスト効率が良いことが示されています。

従来のデータセットに依存しない革新

ルナの特筆すべき点は、従来の真実データセットに頼らずに機能する能力です。多様なドメイン特化型データセットで精練された事前訓練評価モデルを使用することで、時間のかかるカスタムテストセットを必要とせず、評価プロセスを簡素化します。

ルナは、医療、金融、通信などの高い信頼性が求められる業界で特に効果的です。「ルナは月に数百万のクエリを処理する大規模企業向けアプリケーションに特に強力です」とチャッタルジは付け加えました。

比類なきスピードと継続的な改善

ガリレオのルナは卓越したスピードを提供し、1つのクエリをわずか0.232秒で処理します。これは、GPT-3.5(2.5秒)やRAGAS・フェイスフルネス(5.4秒)と比較して大幅な改善です。

ルナの活用例は、リアルタイムでのAI出力監視からチャットボットの安全なやり取りの確保まで多岐にわたります。「ガリレオのファインチューニング製品を使用することで、ルナは特定のクライアントニーズに合わせたカスタマイズが可能で、医薬品や金融サービスなどの重要分野で95%以上の精度を達成します」と述べています。

生成AIの領域が進化する中で、ガリレオはルナを通じて継続的な革新に取り組み、タスク支援の拡充、精度の向上、コストと遅延のさらなる削減を目指しています。

「ガリレオはAI評価の向上にコミットし、組織が信頼できるAIソリューションを展開する手助けをします」とチャッタルジは強調しました。「生成AIが進化し続ける中で、我々はクライアントに自信を与える最先端の機能を提供していきます。」

ルナの発表により、ガリレオは企業向け生成AI評価の先駆者としての地位を強化しました。企業が生成AIの可能性を活かそうとする中で、ルナの迅速でコスト効果が高く、正確な評価はこの変革的な技術の広範な導入において重要な役割を果たすことでしょう。

Most people like

Find AI tools in YBX