Patronus AI sammelt 17 Millionen US-Dollar zur Bekämpfung von KI-Halluzinationen und Urheberrechtsproblemen, was die Unternehmensakzeptanz fördert.

Während Unternehmen hastig generative KI übernehmen, drohen Bedenken hinsichtlich der Genauigkeit und Sicherheit großer Sprachmodelle (LLMs), die umfassende Integration in Unternehmen zu behindern. Patronus AI, ein Start-up aus San Francisco, hat kürzlich 17 Millionen US-Dollar in einer Series-A-Finanzierungsrunde gesichert, um kostspielige und potenziell gefährliche Fehler in LLMs automatisch im großen Maßstab zu identifizieren.

Mit dieser Finanzierungsrunde beläuft sich das Gesamtinvestment von Patronus AI auf 20 Millionen US-Dollar, angeführt von Glenn Solomon von Notable Capital und unterstützt von Lightspeed Venture Partners, dem ehemaligen DoorDash-Manager Gokul Rajaram, Factorial Capital, Datadog und mehreren ungenannten Tech-Führungspersönlichkeiten.

Gegründet von ehemaligen Meta-Experten für maschinelles Lernen, Anand Kannappan und Rebecca Qian, hat Patronus AI eine innovative automatisierte Bewertungsplattform entwickelt, die darauf ausgelegt ist, Probleme wie Halluzinationen, Urheberrechtsverletzungen und Sicherheitsrisiken in den Ausgaben von LLMs zu erkennen. Durch den Einsatz proprietärer KI bewertet die Plattform die Leistungsfähigkeit der Modelle, testet sie mit gegnerischen Beispielen und ermöglicht detailliertes Benchmarking – alles ohne die manuelle Arbeit, die Unternehmen normalerweise benötigen.

„Unser Produkt ist hervorragend darin, eine Vielzahl von Fehlern zu erkennen“, sagte Kannappan, CEO von Patronus AI. „Das umfasst Halluzinationen, Urheberrechtsprobleme, sicherheitsrelevante Risiken und maßgeschneiderte Funktionen zur Wahrung des Stils und Tons einer Marke.“

Der Aufstieg leistungsstarker LLMs wie OpenAIs GPT-4 und Metas Llama 3 hat einen Wettbewerb in Silicon Valley entfacht, um die generativen Fähigkeiten dieser Technologie zu nutzen. Doch neben der Aufregung traten auch bedeutende Modellfehler auf – von fehlerhaften KI-generierten Artikeln von CNET bis hin zu Forschungsrücknahmen in der Arzneimittelforschung, die durch Ungenauigkeiten von LLMs beeinflusst wurden.

Diese Mängel heben tiefere, systemische Probleme in aktuellen LLMs hervor, die Patronus AI beheben will. Ihre Forschungen, einschließlich der kürzlich eingeführten "CopyrightCatcher"-API und der "FinanceBench"-Benchmark, zeigen alarmierende Schwächen in der Fähigkeit führender Modelle, genaue und faktengestützte Antworten zu liefern.

Im „FinanceBench“-Benchmark bewertete Patronus Modelle wie GPT-4 anhand öffentlicher SEC-Dokumente bei finanziellen Anfragen. Die Ergebnisse waren ernüchternd: Das leistungsstärkste Modell beantwortete nur 19 % der Fragen korrekt, obwohl es einen gesamten Jahresbericht überprüfte. Eine separate Auswertung mit der "CopyrightCatcher"-API ergab, dass Open-Source-LLMs in 44 % der Fälle urheberrechtlich geschützten Text wörtlich reproduzierten.

„Selbst modernste Modelle haben Probleme mit der Genauigkeit und erreichen nur eine Leistung von 90 % im Finanzkontext“, bemerkte Qian, CTO von Patronus. „Unsere Erkenntnisse zeigen, dass Open-Source-Modelle über 20 % unsichere Antworten in risikobehafteten Bereichen liefern. Urheberrechtsverletzungen stellen ein wesentliches Problem dar; große Verlage und Medienunternehmen müssen wachsam sein.“

Während andere Start-ups wie Credo AI und Weights & Biases LLM-Bewertungstools entwickeln, hebt sich Patronus durch einen forschungsorientierten Ansatz hervor. Ihre Kerntechnologie besteht darin, spezielle Bewertungsmodelle zu trainieren, um spezifische Szenarien zu identifizieren, in denen LLMs versagen könnten.

„Kein anderes Unternehmen kann mit unserer Forschungstiefe und Technologie mithalten“, betonte Kannappan. „Unsere Strategie ist einzigartig – verwurzelt im Training von Bewertungsmodellen, wegweisenden Ausrichtungstechniken und der Veröffentlichung von Forschungen.“

Patronus AI hat bereits Anklang bei mehreren Fortune-500-Unternehmen aus verschiedenen Branchen gefunden, darunter Automotive, Bildung, Finanzen und Software, um ihnen zu helfen, LLMs sicher einzuführen. Mit der neuen Kapitalzufuhr plant Patronus, seine Forschungs-, Entwicklungs- und Vertriebsteams auszubauen und weitere Benchmarks zu entwickeln.

Wenn Patronus seine Vision verwirklicht, könnten automatisierte LLM-Bewertungen für Unternehmen unerlässlich werden, ähnlich wie Sicherheitsprüfungen bei der Beschleunigung der Cloud-Adoption. Qian stellt sich eine Zukunft vor, in der Modultests mit Patronus Routine sind, vergleichbar mit Unit-Tests für Code.

„Unsere Plattform ist vielseitig und in verschiedenen Bereichen anwendbar, von Recht bis Gesundheitswesen“, erklärte sie. „Wir wollen Unternehmen in jeder Branche befähigen, LLMs zu nutzen, während wir die Einhaltung ihrer spezifischen Anforderungen sicherstellen.“

Trotz der Komplexität, die mit der Validierung der LLM-Leistungsfähigkeit verbunden ist, aufgrund ihrer Black-Box-Natur und der enormen Ausgabemöglichkeiten, bleibt Patronus entschlossen, die KI-Bewertung voranzutreiben. Durch die Weiterentwicklung automatisierter Tests zielt das Unternehmen darauf ab, den verantwortungsvollen Einsatz von LLMs in der Praxis zu erleichtern.

„Die Automatisierung der Leistungsbewertung von LLMs ist herausfordernd, da diese generativen Modelle ein vielfältiges Verhalten zeigen können“, räumte Kannappan ein. „Unser forschungsbasiertes Vorgehen ermöglicht es uns jedoch, Fehler zuverlässig und skalierbar zu identifizieren, was manuelle Tests schlichtweg nicht leisten können.“

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles