シエラ、会話型AIエージェント評価の新基準「TAU-bench」を発表
AIスタートアップのシエラは、OpenAIのボードメンバーであるブレット・テイラー氏と、GoogleのAR/VR専門家であるクレイ・バボール氏によって共同設立されました。同社は、会話型AIの性能を評価するための革新的なベンチマーク「TAU-bench」を導入しました。このツールは、人工知能エージェントが複数の会話を通じて複雑なタスクを完了する能力を厳密にテストします。初期の研究結果では、基本的なLLM(大規模言語モデル)機構を使用したAIエージェントは、簡単なタスクさえも遂行するのに苦労していることが示されており、より高度なエージェントアーキテクチャの必要性を強調しています。開発者は、シエラのGitHubリポジトリでTAU-benchのコードにアクセスできます。
TAU-benchの重要な洞察
シエラの研究責任者カーティック・ナラシマン氏は、「ユーザー中心の会話型エージェントを展開した経験から、エージェントのパフォーマンスと信頼性を正確に測定することが成功した展開には不可欠だと明らかです」と述べています。AIエージェントを展開する前に、企業はその効果を現実のシナリオで評価する必要があると強調しています。
ナラシマン氏は、WebArenaやSWE-bench、Agentbenchなど既存のベンチマークの限界についても言及しています。これらのツールはエージェントの高レベルの能力を明らかにすることができますが、通常は単一のインタラクションのみを評価します。例えば:
ユーザー「今日のニューヨークの天気は?」
AI「今日のニューヨークは晴れ、最高気温は75°F(24°C)、最低気温は60°F(16°C)です。」
実際には、エージェントは情報を集めるために複数の動的なやり取りを行う必要があります。
ユーザー「フライトを予約したいです。」
AI「承知しました! どこからどこへですか?」
ユーザー「シカゴからマイアミへ。」
AI「了解しました。旅行日はいつですか?」
ユーザー「来週の金曜日です。」
AI「わかりました。出発時間の希望はありますか?」(会話が続く)
これらのベンチマークは、平均的なパフォーマンスなどの一次統計に焦点を当てますが、信頼性や適応性を効果的に測定することはできません。
TAU-benchの主要要件
これらの短所を解消するために、シエラはTAU-benchに以下の3つの基本要件を設定しました:
1. 現実的なインタラクション: エージェントは、人間やプログラム的APIとシームレスにやり取りをしながら、複雑な問題を解決する必要があります。
2. 複雑なルールの遵守: エージェントは、特定のタスクに関して厳密なポリシーを正確に遵守する必要があります。
3. 一貫性と信頼性: エージェントは大規模な環境で信頼性のあるパフォーマンスを製示す必要があり企業に安心感を提供します。
TAU-benchは、現実的なデータベースやツールAPIとの連携を含む多様なタスクを特徴としており、ドメイン特有のポリシーにも従います。また、さまざまなシナリオのリアルなインタラクションを作成するために設計されたLLMベースのユーザーシミュレーターも含まれています。各タスクは、エージェントがルールに従い、効果的に推論し、長いコンテキストを保持し、流暢にコミュニケーションを取る能力を評価します。
TAU-benchの主要機能
ナラシマン氏は、TAU-benchの4つの主な機能を強調しています:
1. 現実的な対話とツール利用: 複雑なユーザーシナリオが自然言語を使用して生成され、複雑なルールベースのスクリプトから脱却しています。
2. オープンエンドで多様なタスク: フレームワークは、事前定義された解決策なしで豊かで詳細なタスクをサポートし、AIエージェントが現実の多様なシナリオに対処できることを保証します。
3. 客観的な評価: TAU-benchはタスクの成果を測定し、会話の質ではなく、AIエージェントが目標を達成する成功についてバイアスのない評価を提供します。
4. モジュラーなフレームワーク: TAU-benchは積み木のように構築されており、新しいドメイン、API、タスク、評価基準に容易に適応できます。
AIモデルのTAU-benchでのパフォーマンス
シエラは、OpenAI、Anthropic(Claude 3.5 Sonnetを除く)、Google、Mistralの12の主要なLLMをTAU-benchで評価しました。結果は大きな課題を示しており、最もパフォーマンスの良いエージェントであるOpenAIのGPT-4oでさえ、2つのドメインで50%未満の成功率という結果でした。
さらに、テストされたすべてのエージェントは「非常に低い」信頼性を示し、同じタスクを繰り返し解決することに失敗しました。
これらの洞察から、ナラシマン氏は、推論、計画、およびシナリオの複雑さを向上させるためには、より高度なLLMの開発が不可欠であると主張しています。また、エージェントの行動に関するトーンや会話スタイルなどの追加的な側面を評価するための自動アノテーションツールの作成と、より詳細な評価基準の開発を提唱しています。