Sierra Einführung von TAU-bench: Ein neuer Maßstab zur Bewertung von Conversational-AI-Agenten
Sierra, ein AI-Startup, das von Bret Taylor, einem Mitglied des OpenAI-Vorstands, und Clay Bavor, einem Veteranen im Bereich AR/VR bei Google, mitgegründet wurde, hat TAU-bench vorgestellt, einen revolutionären Benchmark zur Bewertung der Performance von Conversational AI. Dieses Tool testet AI-Agenten gründlich auf ihre Fähigkeit, komplexe Aufgaben über mehrere Interaktionen mit LLM-simulierten Nutzern zu bewältigen. Erste Ergebnisse zeigen, dass AI-Agenten, die grundlegende LLM-Mechanismen wie Funktionsaufrufe oder ReAct nutzen, selbst mit einfachen Aufgaben Schwierigkeiten haben, was auf den dringenden Bedarf an ausgefeilteren Agentenarchitekturen hinweist.
Entwickler können den TAU-bench-Code im GitHub-Repository von Sierra einsehen.
TAU-bench: Wichtige Einblicke
„Bei Sierra hat unsere Erfahrung mit benutzerzentrierten Conversational-Agenten gezeigt, dass die genaue Messung der Agentenleistung und Zuverlässigkeit entscheidend für eine erfolgreiche Implementierung ist“, erklärt Karthik Narasimhan, Forschungsleiter bei Sierra. Er betont, dass Unternehmen die Effektivität eines AI-Agenten in realistischen Szenarien bewerten müssen, bevor sie ihn auf den Markt bringen.
Narasimhan kritisiert bestehende Benchmarks wie WebArena, SWE-bench und Agentbench für ihre Einschränkungen. Diese Tools können zwar hohe Leistungsniveaus eines Agenten festhalten, evaluieren jedoch in der Regel nur eine einzige Interaktion. Beispielsweise:
Nutzer: „Wie ist das Wetter heute in New York?“
AI: „Heute in New York ist es sonnig mit einer Höchsttemperatur von 24 °C und einer Tiefsttemperatur von 16 °C.“
In der Praxis müssen Agenten mehrere dynamische Exchanges durchlaufen, um Informationen zu sammeln:
Nutzer: „Ich möchte einen Flug buchen.“
AI: „Gerne! Woher und wohin?“
Nutzer: „Von Chicago nach Miami.“
AI: „Verstanden. Wann möchten Sie reisen?“
Nutzer: „Nächsten Freitag.“
AI: „Okay. Haben Sie eine Präferenz für die Abflugzeit?“ (das Gespräch geht weiter)
Diese Benchmarks konzentrieren sich auf erste Statistiken wie die durchschnittliche Leistung, messen aber nicht effektiv Zuverlässigkeit oder Anpassungsfähigkeit.
Wesentliche Anforderungen von TAU-bench
Um diese Mängel zu beheben, hat Sierra drei grundlegende Anforderungen für TAU-bench aufgestellt:
1. Interaktion in der realen Welt: Agenten müssen nahtlos mit Menschen und programmgesteuerten APIs über längere Zeiträume interagieren, um komplexe Probleme zu lösen.
2. Einhaltung komplexer Regeln: Agenten müssen die spezifischen Richtlinien ihrer Aufgaben genau befolgen.
3. Konsistenz und Zuverlässigkeit: Agenten müssen eine verlässliche Leistung im großen Maßstab zeigen, damit Unternehmen Vertrauen in ihr Verhalten haben können.
TAU-bench umfasst verschiedene Aufgaben, bei denen realistische Datenbanken und Tool-APIs berücksichtigt werden, während spezifische Richtliniendokumente eingehalten werden. Es enthält einen LLM-basierten Benutzersimulator, der vielfältige Szenarien für realistische Interaktionen erstellt. Jede Aufgabe bewertet die Fähigkeit des Agenten, Regeln zu befolgen, effektiv zu argumentieren, längere Kontexte zu behalten und flüssig zu kommunizieren.
Hauptmerkmale von TAU-bench
Narasimhan hebt vier Hauptmerkmale von TAU-bench hervor:
1. Realistischer Dialog und Tool-Nutzung: Komplexe Benutzerszenarien werden mit natürlicher Sprache erzeugt, weg von komplizierten regelbasierten Skripten.
2. Offene und vielfältige Aufgaben: Der Rahmen unterstützt reiche, detaillierte Aufgaben ohne vordefinierte Lösungen, sodass AI-Agenten eine Vielzahl realer Szenarien bewältigen können.
3. Objektive Bewertung: TAU-bench misst die Ergebnisse von Aufgaben anstelle der Gesprächsqualität und bietet eine unvoreingenommene Bewertung des Erfolgs eines AI-Agenten bei der Erreichung seiner Ziele, ohne auf menschliche Evaluatoren angewiesen zu sein.
4. Modulares Framework: TAU-bench ist wie Bausteine aufgebaut und passt sich leicht an neue Bereiche, APIs, Aufgaben und Bewertungsmetriken an.
Wie schneiden AI-Modelle mit TAU-bench ab?
Sierra hat 12 führende LLMs von OpenAI, Anthropic (außer Claude 3.5 Sonnet), Google und Mistral mithilfe von TAU-bench bewertet. Die Ergebnisse zeigten erhebliche Herausforderungen, wobei der beste getestete Agent, OpenAIs GPT-4o, in zwei Bereichen weniger als 50 % Erfolgsquote erzielte.
Darüber hinaus wiesen alle getesteten Agenten eine „extrem schlechte“ Zuverlässigkeit auf und konnten dieselbe Aufgabe bei wiederholten Versuchen nicht konsistent lösen.
Diese Erkenntnisse führen Narasimhan zu der Ansicht, dass fortschrittlichere LLMs unerlässlich sind, um Argumentationsfähigkeit, Planung und die Komplexität der Szenarien zu verbessern. Er spricht sich auch für die Entwicklung automatischer Annotationswerkzeuge und besserer Bewertungsmetriken aus, um weitere Aspekte des Agentenverhaltens, wie Ton und Gesprächsstil, zu bewerten.