O Novo Padrão da Sierra Destaca o Desempenho de Agentes de IA em Tarefas do Mundo Real

Sierra Lança TAU-bench: Um Novo Padrão para Avaliação de Agentes de IA Conversacional

A Sierra, uma startup de IA co-fundada por Bret Taylor, membro do conselho da OpenAI, e Clay Bavor, veterano em AR/VR do Google, apresentou o TAU-bench, um benchmark revolucionário para avaliar o desempenho de IA conversacional. Esta ferramenta realiza testes rigorosos em agentes de IA, analisando sua capacidade de concluir tarefas complexas por meio de múltplas interações com usuários simulados por LLM. Os primeiros resultados mostram que agentes de IA que utilizam mecanismos básicos de LLM, como chamada de funções ou ReAct, enfrentam dificuldades até mesmo com tarefas simples, evidenciando a necessidade urgente de arquiteturas de agentes mais sofisticadas. Os desenvolvedores podem acessar o código do TAU-bench no repositório do GitHub da Sierra.

TAU-bench: Perspectivas Essenciais

"Na Sierra, nossa experiência na implementação de agentes conversacionais centrados no usuário deixou claro: medir com precisão o desempenho e a confiabilidade do agente é crucial para um lançamento bem-sucedido", afirma Karthik Narasimhan, chefe de pesquisa da Sierra. Ele enfatiza que, antes de lançar um agente de IA, as empresas devem avaliar sua eficácia em cenários realistas.

Narasimhan critica benchmarks existentes como WebArena, SWE-bench e Agentbench por suas limitações. Embora essas ferramentas possam destacar as capacidades de alto nível de um agente, normalmente avaliam apenas uma única interação. Por exemplo:

Usuário: "Como está o clima em Nova York hoje?"

IA: "Hoje em Nova York, está ensolarado, com máxima de 24°C e mínima de 16°C."

Na prática, os agentes precisam navegar por múltiplas trocas dinâmicas para coletar informações:

Usuário: "Quero reservar um voo."

IA: "Certamente! De onde e para onde?"

Usuário: "De Chicago para Miami."

IA: "Entendi. Quando você gostaria de viajar?"

Usuário: "Na próxima sexta."

IA: "Ok. Você tem preferência por horário de partida?" (a conversa continua)

Esses benchmarks focam em estatísticas de primeira ordem, como desempenho médio, mas falham em medir confiabilidade ou adaptabilidade de maneira eficaz.

Requisitos Fundamentais do TAU-bench

Para corrigir essas falhas, a Sierra estabeleceu três requisitos fundamentais para o TAU-bench:

1. Interação do Mundo Real: Os agentes devem se envolver de maneira fluida com humanos e APIs programáticas por períodos prolongados para resolver problemas complexos.

2. Adesão a Regras Complexas: Os agentes precisam seguir políticas intricadas específicas para suas tarefas com precisão.

3. Consistência e Confiabilidade: Os agentes devem demonstrar desempenho confiável em larga escala, proporcionando confiança às empresas em seu comportamento operacional.

O TAU-bench inclui diversas tarefas, como interagir com bancos de dados realistas e APIs de ferramentas, enquanto adere a documentos de políticas específicos do domínio. Apresenta um simulador de usuário baseado em LLM, projetado para criar cenários diversos para interações realistas. Cada tarefa avalia a capacidade do agente de seguir regras, raciocinar efetivamente, reter contexto extenso e se comunicar de maneira fluida.

Principais Recursos do TAU-bench

Narasimhan destaca quatro recursos principais do TAU-bench:

1. Diálogo e Uso de Ferramentas Realistas: Cenários complexos de usuários são gerados usando linguagem natural, afastando-se de scripts baseados em regras complicadas.

2. Tarefas Abertas e Diversificadas: A estrutura suporta tarefas ricas e detalhadas sem soluções predefinidas, garantindo que os agentes de IA possam lidar com uma ampla variedade de cenários do mundo real.

3. Avaliação Objetiva: O TAU-bench mede os resultados das tarefas em vez da qualidade da conversa, proporcionando uma avaliação imparcial do sucesso de um agente de IA em alcançar seus objetivos, sem depender de avaliadores humanos.

4. Estrutura Modular: Construído como blocos de montar, o TAU-bench se adapta facilmente a novos domínios, APIs, tarefas e métricas de avaliação.

Como os Modelos de IA se Desempenham com o TAU-bench?

A Sierra avaliou 12 LLMs proeminentes da OpenAI, Anthropic (excluindo Claude 3.5 Sonnet), Google e Mistral usando o TAU-bench. Os resultados mostraram desafios significativos, com o agente de melhor desempenho, o GPT-4o da OpenAI, alcançando menos de 50% de taxa de sucesso em dois domínios.

Além disso, todos os agentes testados apresentaram confiabilidade "extremamente baixa", falhando em resolver consistentemente a mesma tarefa em tentativas repetidas. Essas descobertas levaram Narasimhan a afirmar que LLMs mais avançados são essenciais para melhorar o raciocínio, planejamento e a complexidade dos cenários. Ele também defende a criação de ferramentas de anotação automatizadas e o desenvolvimento de métricas de avaliação mais refinadas para avaliar aspectos adicionais do comportamento do agente, como tom e estilo conversacional.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles