Arize führt die Überwachung variabler Eingaben ein, um festzustellen, wann KI-Modelle versagen.

Arize AI, ein Observability-Service, hat ein neues Produkt eingeführt, das Unternehmen dabei hilft, herauszufinden, wann Eingabedaten zu Fehlern oder Halluzinationen in großen Sprachmodellen (LLMs) führen. Dieses Tool, das speziell für AI-Ingenieure entwickelt wurde, liefert entscheidende Einblicke für das Debugging komplexer Systeme und isoliert häufig Probleme, die aus nur wenigen Codezeilen resultieren.

Laut Jason Lopatecki, Mitgründer und CEO von Arize, sind „wir alle Eingabe-Ingenieure – wir haben unsere eigenen Eingaben erstellt. Viele Anwendungen verwenden Vorlagen für Eingaben, die eine wiederholte Anwendung auf verschiedene Datensätze ermöglichen und so bessere Antworten auf Benutzeranfragen liefern. Diese Vorlagen basieren jedoch auf Eingabevariablen aus Ihrem System, und selbst geringfügige Datenabweichungen können zu Halluzinationen oder Fehlern in den Ausgaben von LLMs führen.“

Das Monitoring von Eingabevariablen ist besonders wichtig im Bereich von KI-gesteuerten Kundenservice- und Support-Chatbots, wo falsche Informationen den Ruf einer Marke schädigen können. Während das Management eines einzelnen LLM das Monitoring erleichtern kann, nutzen Unternehmen häufig mehrere Modelle von Anbietern wie OpenAI, Google, Meta, Anthropic und Mistral, was diese Überwachung umso wichtiger macht.

Lopatecki hebt Fehlinformationen als Hauptursache für Halluzinationen hervor. Die Identifizierung der Fehlerquelle – sei es die ins Modell eingespeiste Daten, die gewählte Eingabemaske oder andere Faktoren – ist entscheidend für effektive Systemreparaturen.

Das Verständnis von Variabilität ist ebenfalls von großer Bedeutung. Sie bezieht sich auf die Bandbreite möglicher Ausgaben von KI-Modellen, die durch kleine Anpassungen oder fehlerhafte Dateneingaben beeinflusst werden. „Der Entscheidungsprozess ist nicht nur ein einfaches Eingabe-Ausgabe-Szenario,“ erläutert Lopatecki. „Die Ausgaben von KI fließen oft in nachfolgende KI-Entscheidungen ein, wodurch ein komplexes Geflecht entsteht, in dem Variationen zu erheblichen Problemen eskalieren können.“

Um diese Herausforderungen zu bewältigen, entwickelt Arize spezifische Werkzeuge für AI-Ingenieure, die fortschrittliche LLMs nutzen, um komplexe KI-Systeme zu erstellen. „Diese Ingenieure benötigen leistungsstarke Werkzeuge, um die Intelligenz ihrer Anwendungen zu steigern. Die Rolle des AI-Ingenieurs wird in den kommenden Jahren allgegenwärtig sein,“ so Lopatecki.

Lopatecki strebt an, dass Arize zum „Datadog für KI“ wird und sich als Wettbewerber des Cloud-Monitoring-Giganten positioniert, der in das KI-Monitoring eingestiegen ist, einschließlich der Unterstützung für OpenAI-Modelle wie GPT-4. Er glaubt jedoch, dass Arize einen Vorteil hat: „Im Gegensatz zu Datadog sind wir im KI-Bereich entstanden. Der Innovationsprozess ist rasant, und sie entwickeln ihre KI-Produkte noch."

Er betont die Dringlichkeit, effektive KI-Lösungen bereitzustellen: „Während Unternehmen hastig implementieren, testen sie oft nur begrenzte Szenarien. Die Variabilität und potenziellen Probleme werden offensichtlich, sobald diese Systeme in der realen Welt arbeiten, was zu vielen unvorhergesehenen Herausforderungen führt. Der Bedarf an effektiven Debugging-Tools hat einen kritischen Punkt erreicht, und die Unternehmen beginnen zu erkennen, wie viele Dinge schiefgehen können.“

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles