Новый стандарт Sierra подчеркивает эффективность ИИ-агентов в реальных задачах.

Sierra запускает TAU-bench: новый стандарт оценки агентов разговорного ИИ

Sierra, стартап в области искусственного интеллекта, соучредителем которого является член совета OpenAI Брет Тейлор и ветеран Google в области AR/VR Клей Бавор, представила TAU-bench — революционный инструмент для оценки эффективности разговорного ИИ. Этот инструмент тщательно тестирует ИИ-агентов на их способности выполнять сложные задачи через многократные взаимодействия с пользователями, моделируемыми LLM. Первичные результаты показывают, что ИИ-агенты, использующие основные механизмы LLM, такие как вызовы функций или ReAct, имеют трудности даже с простыми задачами, что подчеркивает необходимость более сложных архитектур агентов.

Разработчики могут получить доступ к коду TAU-bench на репозитории Sierra на GitHub.

TAU-bench: ключевые идеи

«В Sierra наш опыт в разработке ориентированных на пользователя разговорных агентов показал, что точная оценка их производительности и надежности имеет критическое значение для успешного развертывания», — говорит Картик Нарасимхан, глава исследований Sierra. Он подчеркивает, что перед запуском ИИ-агента компании должны оценить его эффективность в реалистичных условиях.

Нарасимхан критикует существующие стандарты, такие как WebArena, SWE-bench и Agentbench, за их ограничения. Хотя эти инструменты могут продемонстрировать высокоуровневые возможности агента, они обычно оценивают только одно взаимодействие. Например:

Пользователь: «Какой сегодня прогноз погоды в Нью-Йорке?»

ИИ: «Сегодня в Нью-Йорке солнечно, максимальная температура 24°C, минимальная 16°C».

На практике агенты должны справляться с несколькими динамичными обменами для получения информации:

Пользователь: «Я хочу забронировать рейс».

ИИ: «Конечно! Откуда и куда?»

Пользователь: «Из Чикаго в Майами».

ИИ: «Понял. Когда вы хотите вылететь?»

Пользователь: «В следующую пятницу».

ИИ: «Хорошо. У вас есть предпочтения по времени вылета?» (разговор продолжается)

Эти стандарты акцентируют внимание на первичных показателях, таких как средняя производительность, но не могут эффективно оценить надежность или адаптивность.

Ключевые требования TAU-bench

Чтобы исправить эти недостатки, Sierra сформулировала три основных требования для TAU-bench:

1. Взаимодействие в реальном мире: Агенты должны вести взаимодействие с людьми и программными API на протяжении длительного времени для решения сложных задач.

2. Соблюдение сложных правил: Агенты необходимо точно следовать сложным политикам, специфичным для выполняемых задач.

3. Консистентность и надежность: Агенты должны демонстрировать надежную производительность в масштабе, обеспечивая компании уверенность в их операционном поведении.

TAU-bench включает различные задачи, такие как работа с реалистичными базами данных и API инструментов, соблюдая специфические для домена правила. Он включает в себя симулятор пользователей на основе LLM, разработанный для создания разнообразных сценариев для реалистичных взаимодействий. Каждая задача оценивает способность агента следовать правилам, эффективно рассуждать, удерживать длинный контекст и общаться плавно.

Ключевые особенности TAU-bench

Нарасимхан выделяет четыре основных особенности TAU-bench:

1. Реалистичный диалог и использование инструментов: Сложные пользовательские сценарии генерируются с использованием естественного языка, уходя от запутанных скриптов на основе правил.

2. Открытые и разнообразные задачи: Фреймворк поддерживает насыщенные, подробные задачи без заранее определенных решений, обеспечивая возможность справляться с разнообразными сценариями из реального мира.

3. Объективная оценка: TAU-bench измеряет результаты задач, а не качество общения, предоставляя беспристрастную оценку успеха ИИ-агента в достижении своих целей без зависимости от человеческих оценщиков.

4. Модульный фреймворк: Построенный как конструктор, TAU-bench легко адаптируется к новым областям, API, задачам и метрикам оценки.

Как модели ИИ показывают себя с TAU-bench?

Sierra оценивала 12 известных LLM от OpenAI, Anthropic (за исключением Claude 3.5 Sonnet), Google и Mistral с использованием TAU-bench. Результаты показали значительные трудности, причем агент с лучшими показателями, GPT-4o от OpenAI, достигал менее 50% успеха в двух областях.

Более того, все протестированные агенты продемонстрировали «крайне низкую» надежность, не справляясь с решением одной и той же задачи при повторных попытках.

Эти выводы приводят Нарасимхана к утверждению, что более продвинутые LLM необходимы для улучшения рассуждений, планирования и сложности сценариев. Он также выступает за создание автоматизированных инструментов аннотирования и разработку более точных метрик оценки для анализа дополнительных аспектов поведения агентов, таких как тон и стиль общения.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles