Sierra запускает TAU-bench: новый стандарт оценки агентов разговорного ИИ
Sierra, стартап в области искусственного интеллекта, соучредителем которого является член совета OpenAI Брет Тейлор и ветеран Google в области AR/VR Клей Бавор, представила TAU-bench — революционный инструмент для оценки эффективности разговорного ИИ. Этот инструмент тщательно тестирует ИИ-агентов на их способности выполнять сложные задачи через многократные взаимодействия с пользователями, моделируемыми LLM. Первичные результаты показывают, что ИИ-агенты, использующие основные механизмы LLM, такие как вызовы функций или ReAct, имеют трудности даже с простыми задачами, что подчеркивает необходимость более сложных архитектур агентов.
Разработчики могут получить доступ к коду TAU-bench на репозитории Sierra на GitHub.
TAU-bench: ключевые идеи
«В Sierra наш опыт в разработке ориентированных на пользователя разговорных агентов показал, что точная оценка их производительности и надежности имеет критическое значение для успешного развертывания», — говорит Картик Нарасимхан, глава исследований Sierra. Он подчеркивает, что перед запуском ИИ-агента компании должны оценить его эффективность в реалистичных условиях.
Нарасимхан критикует существующие стандарты, такие как WebArena, SWE-bench и Agentbench, за их ограничения. Хотя эти инструменты могут продемонстрировать высокоуровневые возможности агента, они обычно оценивают только одно взаимодействие. Например:
Пользователь: «Какой сегодня прогноз погоды в Нью-Йорке?»
ИИ: «Сегодня в Нью-Йорке солнечно, максимальная температура 24°C, минимальная 16°C».
На практике агенты должны справляться с несколькими динамичными обменами для получения информации:
Пользователь: «Я хочу забронировать рейс».
ИИ: «Конечно! Откуда и куда?»
Пользователь: «Из Чикаго в Майами».
ИИ: «Понял. Когда вы хотите вылететь?»
Пользователь: «В следующую пятницу».
ИИ: «Хорошо. У вас есть предпочтения по времени вылета?» (разговор продолжается)
Эти стандарты акцентируют внимание на первичных показателях, таких как средняя производительность, но не могут эффективно оценить надежность или адаптивность.
Ключевые требования TAU-bench
Чтобы исправить эти недостатки, Sierra сформулировала три основных требования для TAU-bench:
1. Взаимодействие в реальном мире: Агенты должны вести взаимодействие с людьми и программными API на протяжении длительного времени для решения сложных задач.
2. Соблюдение сложных правил: Агенты необходимо точно следовать сложным политикам, специфичным для выполняемых задач.
3. Консистентность и надежность: Агенты должны демонстрировать надежную производительность в масштабе, обеспечивая компании уверенность в их операционном поведении.
TAU-bench включает различные задачи, такие как работа с реалистичными базами данных и API инструментов, соблюдая специфические для домена правила. Он включает в себя симулятор пользователей на основе LLM, разработанный для создания разнообразных сценариев для реалистичных взаимодействий. Каждая задача оценивает способность агента следовать правилам, эффективно рассуждать, удерживать длинный контекст и общаться плавно.
Ключевые особенности TAU-bench
Нарасимхан выделяет четыре основных особенности TAU-bench:
1. Реалистичный диалог и использование инструментов: Сложные пользовательские сценарии генерируются с использованием естественного языка, уходя от запутанных скриптов на основе правил.
2. Открытые и разнообразные задачи: Фреймворк поддерживает насыщенные, подробные задачи без заранее определенных решений, обеспечивая возможность справляться с разнообразными сценариями из реального мира.
3. Объективная оценка: TAU-bench измеряет результаты задач, а не качество общения, предоставляя беспристрастную оценку успеха ИИ-агента в достижении своих целей без зависимости от человеческих оценщиков.
4. Модульный фреймворк: Построенный как конструктор, TAU-bench легко адаптируется к новым областям, API, задачам и метрикам оценки.
Как модели ИИ показывают себя с TAU-bench?
Sierra оценивала 12 известных LLM от OpenAI, Anthropic (за исключением Claude 3.5 Sonnet), Google и Mistral с использованием TAU-bench. Результаты показали значительные трудности, причем агент с лучшими показателями, GPT-4o от OpenAI, достигал менее 50% успеха в двух областях.
Более того, все протестированные агенты продемонстрировали «крайне низкую» надежность, не справляясь с решением одной и той же задачи при повторных попытках.
Эти выводы приводят Нарасимхана к утверждению, что более продвинутые LLM необходимы для улучшения рассуждений, планирования и сложности сценариев. Он также выступает за создание автоматизированных инструментов аннотирования и разработку более точных метрик оценки для анализа дополнительных аспектов поведения агентов, таких как тон и стиль общения.