Sierras neuer Benchmark hebt die Leistung von KI-Agenten bei realen Aufgaben hervor.

Home KI-Nachrichten Sierras neuer Benchmark hebt die Leistung von KI-Agenten bei realen Aufgaben hervor.

Sierra Einführung von TAU-bench: Ein neuer Maßstab zur Bewertung von Conversational-AI-Agenten

Sierra, ein AI-Startup, das von Bret Taylor, einem Mitglied des OpenAI-Vorstands, und Clay Bavor, einem Veteranen im Bereich AR/VR bei Google, mitgegründet wurde, hat TAU-bench vorgestellt, einen revolutionären Benchmark zur Bewertung der Performance von Conversational AI. Dieses Tool testet AI-Agenten gründlich auf ihre Fähigkeit, komplexe Aufgaben über mehrere Interaktionen mit LLM-simulierten Nutzern zu bewältigen. Erste Ergebnisse zeigen, dass AI-Agenten, die grundlegende LLM-Mechanismen wie Funktionsaufrufe oder ReAct nutzen, selbst mit einfachen Aufgaben Schwierigkeiten haben, was auf den dringenden Bedarf an ausgefeilteren Agentenarchitekturen hinweist.

Entwickler können den TAU-bench-Code im GitHub-Repository von Sierra einsehen.

TAU-bench: Wichtige Einblicke

„Bei Sierra hat unsere Erfahrung mit benutzerzentrierten Conversational-Agenten gezeigt, dass die genaue Messung der Agentenleistung und Zuverlässigkeit entscheidend für eine erfolgreiche Implementierung ist“, erklärt Karthik Narasimhan, Forschungsleiter bei Sierra. Er betont, dass Unternehmen die Effektivität eines AI-Agenten in realistischen Szenarien bewerten müssen, bevor sie ihn auf den Markt bringen.

Narasimhan kritisiert bestehende Benchmarks wie WebArena, SWE-bench und Agentbench für ihre Einschränkungen. Diese Tools können zwar hohe Leistungsniveaus eines Agenten festhalten, evaluieren jedoch in der Regel nur eine einzige Interaktion. Beispielsweise:

Nutzer: „Wie ist das Wetter heute in New York?“

AI: „Heute in New York ist es sonnig mit einer Höchsttemperatur von 24 °C und einer Tiefsttemperatur von 16 °C.“

In der Praxis müssen Agenten mehrere dynamische Exchanges durchlaufen, um Informationen zu sammeln:

Nutzer: „Ich möchte einen Flug buchen.“

AI: „Gerne! Woher und wohin?“

Nutzer: „Von Chicago nach Miami.“

AI: „Verstanden. Wann möchten Sie reisen?“

Nutzer: „Nächsten Freitag.“

AI: „Okay. Haben Sie eine Präferenz für die Abflugzeit?“ (das Gespräch geht weiter)

Diese Benchmarks konzentrieren sich auf erste Statistiken wie die durchschnittliche Leistung, messen aber nicht effektiv Zuverlässigkeit oder Anpassungsfähigkeit.

Wesentliche Anforderungen von TAU-bench

Um diese Mängel zu beheben, hat Sierra drei grundlegende Anforderungen für TAU-bench aufgestellt:

1. Interaktion in der realen Welt: Agenten müssen nahtlos mit Menschen und programmgesteuerten APIs über längere Zeiträume interagieren, um komplexe Probleme zu lösen.

2. Einhaltung komplexer Regeln: Agenten müssen die spezifischen Richtlinien ihrer Aufgaben genau befolgen.

3. Konsistenz und Zuverlässigkeit: Agenten müssen eine verlässliche Leistung im großen Maßstab zeigen, damit Unternehmen Vertrauen in ihr Verhalten haben können.

TAU-bench umfasst verschiedene Aufgaben, bei denen realistische Datenbanken und Tool-APIs berücksichtigt werden, während spezifische Richtliniendokumente eingehalten werden. Es enthält einen LLM-basierten Benutzersimulator, der vielfältige Szenarien für realistische Interaktionen erstellt. Jede Aufgabe bewertet die Fähigkeit des Agenten, Regeln zu befolgen, effektiv zu argumentieren, längere Kontexte zu behalten und flüssig zu kommunizieren.

Hauptmerkmale von TAU-bench

Narasimhan hebt vier Hauptmerkmale von TAU-bench hervor:

1. Realistischer Dialog und Tool-Nutzung: Komplexe Benutzerszenarien werden mit natürlicher Sprache erzeugt, weg von komplizierten regelbasierten Skripten.

2. Offene und vielfältige Aufgaben: Der Rahmen unterstützt reiche, detaillierte Aufgaben ohne vordefinierte Lösungen, sodass AI-Agenten eine Vielzahl realer Szenarien bewältigen können.

3. Objektive Bewertung: TAU-bench misst die Ergebnisse von Aufgaben anstelle der Gesprächsqualität und bietet eine unvoreingenommene Bewertung des Erfolgs eines AI-Agenten bei der Erreichung seiner Ziele, ohne auf menschliche Evaluatoren angewiesen zu sein.

4. Modulares Framework: TAU-bench ist wie Bausteine aufgebaut und passt sich leicht an neue Bereiche, APIs, Aufgaben und Bewertungsmetriken an.

Wie schneiden AI-Modelle mit TAU-bench ab?

Sierra hat 12 führende LLMs von OpenAI, Anthropic (außer Claude 3.5 Sonnet), Google und Mistral mithilfe von TAU-bench bewertet. Die Ergebnisse zeigten erhebliche Herausforderungen, wobei der beste getestete Agent, OpenAIs GPT-4o, in zwei Bereichen weniger als 50 % Erfolgsquote erzielte.

Darüber hinaus wiesen alle getesteten Agenten eine „extrem schlechte“ Zuverlässigkeit auf und konnten dieselbe Aufgabe bei wiederholten Versuchen nicht konsistent lösen.

Diese Erkenntnisse führen Narasimhan zu der Ansicht, dass fortschrittlichere LLMs unerlässlich sind, um Argumentationsfähigkeit, Planung und die Komplexität der Szenarien zu verbessern. Er spricht sich auch für die Entwicklung automatischer Annotationswerkzeuge und besserer Bewertungsmetriken aus, um weitere Aspekte des Agentenverhaltens, wie Ton und Gesprächsstil, zu bewerten.

Entdecken Sie OpenAI: Einblicke zur Transformation von Unternehmen bei VB Transform 2024

GrayMatter sichert sich 45 Millionen Dollar, um die Fertigung mit fortschrittlichen „physikbasierten KI“-Robotern zu revolutionieren.

Most people like

Clarice.ai

155.2K

Entfalten Sie Ihr Inhaltspotenzial mit unserem KI-Schreibassistenten, der darauf ausgelegt ist, Ihre Schreibeffizienz zu steigern und die Qualität Ihrer Ergebnisse zu verbessern. Erleben Sie eine schnellere, effektivere Inhaltserstellung, die Ihr Publikum fesselt und Ihre Ziele mühelos erreicht.

KI-Schreibassistent Writing Assistants

AI Signals

106K

AI-Signals ist ein fortschrittlicher KI-gestützter Handelsindikator, der in Echtzeit Handelssignale für Aktien, Devisen und Kryptowährungen liefert. Mit seiner hochmodernen Technologie ermöglicht AI-Signals Händlern, fundierte Investitionsentscheidungen mit Vertrauen zu treffen.

KI-gestützter Indikator AI Trading Bot Assistant

Outset

70.8K

Entdecken Sie die Kraft von Echtzeit-Sprachinterviews, unterstützt durch KI-Moderation für eine nahtlose Interaktion. Dieser innovative Ansatz optimiert den Interviewprozess, liefert wertvolle Einblicke und gewährleistet gleichzeitig Effizienz und Klarheit.

KI-gesteuerte Forschung AI Advertising Assistant

YouLearn

313.1K

YouLearn ist eine innovative KI-Tutoring-Plattform, die darauf ausgelegt ist, Ihr Lernen zu personalisieren, indem sie maßgeschneiderte Zusammenfassungen und Lernressourcen bereitstellt. Entdecken Sie, wie unsere Technologie die Bildung an Ihre individuellen Bedürfnisse anpasst und Ihren akademischen Erfolg fördert.

AI-Tutor AI Education Assistant

Find AI tools in YBX