시애라, 대화형 AI 에이전트 평가를 위한 TAU-bench 출시
AI 스타트업 시애라가 대화형 AI 성능을 평가하기 위한 혁신적인 기준인 TAU-bench를 발표했습니다. 시애라는 OpenAI 이사인 브레트 테일러와 구글 AR/VR 베테랑 클레이 바보르가 공동 설립했습니다. TAU-bench는 AI 에이전트가 LLM 시뮬레이션 사용자와의 여러 교환을 통해 복잡한 작업을 완료할 수 있는 능력을 철저하게 테스트합니다. 초기 결과에 따르면, 기능 호출이나 ReAct와 같은 기본 LLM 메커니즘을 사용하는 AI 에이전트는 간단한 작업조차 수행하기 어려움을 보여주며, 더 정교한 에이전트 아키텍처의 필요성을 강조합니다. 개발자는 시애라의 GitHub 리포지토리에서 TAU-bench 코드를 이용할 수 있습니다.
TAU-bench: 필수 통찰
시애라의 연구 책임자인 카르틱 나라심한은 "사용자 중심 대화형 에이전트를 배포한 경험에서, 에이전트의 성능과 신뢰성을 정확하게 측정하는 것이 성공적인 배포에 매우 중요하다는 것을 분명히 깨달았습니다"라고 강조했습니다. 그는 AI 에이전트를 출시하기 전에 실제 시나리오에서 효과성을 평가해야 한다고 덧붙였습니다.
나라심한은 WebArena, SWE-bench, Agentbench와 같은 기존 벤치마크의 한계에 대해 비판합니다. 이러한 도구들은 에이전트의 높은 수준의 기능을 강조할 수 있지만, 일반적으로 단일 상호작용만 평가합니다. 예를 들어,
사용자: “오늘 뉴욕의 날씨는 어때?”
AI: “오늘 뉴욕은 맑고, 최고 기온은 75°F(24°C), 최저 기온은 60°F(16°C)입니다.”
실제로 에이전트는 정보를 수집하기 위해 여러 동적인 교환을 처리해야 합니다:
사용자: “비행기를 예약하고 싶어요.”
AI: “물론입니다! 출발지는 어디고 도착지는 어디인가요?”
사용자: “시카고에서 마이애미로요.”
AI: “알겠습니다. 언제 여행하고 싶으신가요?”
사용자: “다음 금요일에요.”
AI: “좋아요. 출발 시간에 대해 선호가 있으신가요?” (대화 계속)
이러한 벤치마크는 평균 성능과 같은 1차 통계에 초점을 맞추지만 신뢰성이나 적응성을 효과적으로 측정하지 못합니다.
TAU-bench의 주요 요구 사항
이러한 단점을 보완하기 위해 시애라는 TAU-bench에 대한 세 가지 기본 요구 사항을 설정했습니다:
1. 현실적인 상호작용: 에이전트는 복잡한 문제를 해결하기 위해 인간 및 프로그래밍 API와 원활하게 상호작용해야 합니다.
2. 복잡한 규칙 준수: 에이전트는 특정 작업에 대한 복잡한 정책을 정확하게 따라야 합니다.
3. 일관성 및 신뢰성: 에이전트는 대규모에서 신뢰할 수 있는 성능을 보여주어야 하며, 이는 기업에 운영 행동에 대한 신뢰를 제공합니다.
TAU-bench는 현실적인 데이터베이스 및 도구 API와 상호작용하며 도메인 특정 정책 문서를 준수하는 다양한 작업을 포함합니다. 또한 각 작업은 에이전트가 규칙을 준수하고, 효과적으로 추론하며, 긴 맥락을 유지하고, 유창하게 의사소통할 수 있는 능력을 평가합니다.
TAU-bench의 주요 기능
나라심한은 TAU-bench의 네 가지 주요 기능을 강조합니다:
1. 현실적인 대화 및 도구 사용: 복잡한 사용자 시나리오는 자연어를 사용하여 생성되며, 복잡한 규칙 기반 스크립트에서 벗어났습니다.
2. 개방적이고 다양한 작업: 이 프레임워크는 사전 정의된 솔루션 없이 풍부하고 상세한 작업을 지원하여 AI 에이전트가 다양한 실제 상황을 처리할 수 있도록 보장합니다.
3. 객관적인 평가: TAU-bench는 대화의 질이 아닌 작업 결과를 측정하여 인적 평가자의 도움이 없이 AI 에이전트의 목표 달성 성공도를 공정하게 평가합니다.
4. 모듈형 프레임워크: 블록처럼 구축된 TAU-bench는 새로운 도메인, API, 작업 및 평가 메트릭에 쉽게 적응할 수 있습니다.
TAU-bench에서 AI 모델의 성능은?
시애라는 TAU-bench를 사용하여 OpenAI, Anthropic(Claude 3.5 Sonnet 제외), 구글, Mistral의 12개 주요 LLM을 평가했습니다. 결과는 중대한 도전 과제를 보여주었으며, 가장 성과가 뛰어난 에이전트인 OpenAI의 GPT-4o는 두 개 도메인에서 50% 미만의 성공률을 기록했습니다.
게다가 모든 테스트를 받은 에이전트는 "극히 불량한" 신뢰성을 보였으며, 반복적인 시험에서도 동일한 작업을 일관되게 해결하지 못했습니다.
이러한 통찰은 나라심한에게 더욱 정교한 LLM이 추론, 계획 및 시나리오 복잡성을 개선하는 데 필수적임을 확인시켜주었습니다. 그는 또한 에이전트 행동의 추가 측면, 예를 들어 어조와 대화 스타일을 평가할 수 있는 자동 주석 도구의 제작과 더 정교한 평가 메트릭 개발을 옹호합니다.