Galileo Hallucinations-Index zeigt, dass GPT-4 das leistungsstärkste LLM in verschiedenen Anwendungsbereichen ist.

Ein neuer Halluzinationsindex von Galileo, einem in San Francisco ansässigen Unternehmen, das Unternehmen bei der Entwicklung, Verfeinerung und Überwachung von Anwendungen mit großen Sprachmodellen (LLMs) unterstützt, zeigt, dass OpenAIs GPT-4-Modell die geringsten Halluzinationen in verschiedenen Aufgaben aufweist. Der heute veröffentlichte Index bewertete fast ein Dutzend quelloffener und proprietärer LLMs, einschließlich der Llama-Serie von Meta, und verglich deren Leistungen, um das Modell mit den wenigsten Halluzinationen zu ermitteln.

Die Ergebnisse zeigen, dass alle LLMs unterschiedlich auf verschiedene Aufgaben reagieren, OpenAIs Modelle jedoch in vielen Szenarien konstant überlegen sind. Dieser Index soll Unternehmen dabei helfen, die Herausforderung von Halluzinationen zu bewältigen, die als bedeutendes Hindernis für die breitflächige Einführung von LLMs in kritischen Sektoren wie der Gesundheitsversorgung gilt.

Halluzinationen von LLMs überwachen: Eine anspruchsvolle Aufgabe

Trotz des starken Interesses von Unternehmen an generativer KI und dem Einsatz von LLMs treten häufig Leistungsunterschiede auf. LLMs können Antworten erzeugen, die nicht vollständig faktisch korrekt sind, da sie auf einer Vektordatenbank basieren, die verwandte Begriffe und Konzepte unabhängig von deren Wahrheitsgehalt bestimmt.

„Es gibt viele Faktoren, die den Einsatz von generativen KI-Produkten beeinflussen. Beispielsweise, ist Ihr Tool darauf ausgelegt, Geschichten aus einfachen Eingaben zu generieren oder handelt es sich um einen Chatbot, der Kundenanfragen basierend auf proprietären Informationen beantwortet?“, erklärte Atindriyo Sanyal, Mitgründer und CTO von Galileo.

Aktuell nutzen Unternehmen Benchmarks zur Bewertung der Modellleistungen, aber eine umfassende Messung des Auftretens von Halluzinationen fehlte bisher — bis jetzt. Um dieses Problem anzugehen, bewertete Sanyal und sein Team elf bekannte quelloffene und proprietäre LLMs anhand von drei gängigen Aufgaben: Fragen und Antworten ohne Retrieval-Augmented Generation (RAG), Fragen und Antworten mit RAG sowie die Erzeugung von Langtexten.

„Wir wählten sieben beliebte Datensätze aus, die als rigorose Benchmarks anerkannt sind, um die Fähigkeiten jedes Modells in Bezug auf die Aufgaben effektiv zu testen“, bemerkte Sanyal. Im Bereich Fragen und Antworten ohne RAG verwendeten sie beispielsweise Datensätze wie TruthfulQA und TriviaQA, um zu messen, wie gut die Modelle allgemeine Anfragen behandeln.

Das Galileo-Team reduzierte die Datensatzgrößen und annotierte sie, um eine Grundlage für die Genauigkeitsbewertung zu schaffen. Sie verwendeten ihre proprietären Metriken zur Korrektheit und Kontexteinhaltung, um die Ergebnisse zu bewerten.

„Diese Metriken ermöglichen es Ingenieuren und Datenwissenschaftlern, Halluzinationen effektiv zu identifizieren. Die Korrektheit konzentriert sich auf logische und reasoning-Fehler und misst Fragen und Antworten ohne RAG sowie die Langformgenerierung, während die Kontexteinhaltung das reasoning innerhalb der bereitgestellten Dokumente bewertet und für Fragen und Antworten mit RAG verwendet wird“, erläuterte Sanyal.

Leistungsübersicht

Im Bereich Fragen und Antworten ohne Retrieval erzielten OpenAIs GPT-Modelle Spitzenwerte, wobei GPT-4-0613 eine Korrektheitsbewertung von 0,77 erreichte. Es folgten GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct und GPT-3.5-Turbo-0613 mit 0,74, 0,70 und 0,70. Metas Llama-2-70b war mit einem Wert von 0,65 der engste Mitbewerber, während Modelle wie Llama-2-7b-chat und Mosaic MLs MPT-7b-instruct mit 0,52 bzw. 0,40 niedriger abschnitten.

Bei den Retrieval-Aufgaben schloss GPT-4-0613 erneut als Spitzenreiter mit einer Kontexteinhaltungsbewertung von 0,76 ab, gefolgt von GPT-3.5-Turbo-0613 und -1106 mit 0,75 und 0,74. Beeindruckend schnitt Hugging Faces Zephyr-7b mit 0,71 ab und übertraf Metas Llama-2-70b (Wertung = 0,68). Die Modelle Falcon-40b aus den VAE und Mosaic MLs MPT-7b wiesen mit 0,60 und 0,58 noch Verbesserungspotenzial auf.

Bei Aufgaben zur Langformtextgenerierung erzielten sowohl GPT-4-0613 als auch Llama-2-70b hohe Werte von 0,83 und 0,82, was auf minimale Halluzinationen hinweist. GPT-3.5-Turbo-1106 erreichte den gleichen Wert wie Llama, während die 0613-Version knapp mit 0,81 folgte. MPT-7b schnitt mit 0,53 ab.

Leistung und Kosten in Balance bringen

Obwohl OpenAIs GPT-4 überlegene Leistungen bei verschiedenen Aufgaben bietet, könnten die API-Kosten erheblich steigen. Galileo empfiehlt Teams, die Modelle GPT-3.5-Turbo für vergleichbare Leistungen zu niedrigeren Kosten in Betracht zu ziehen. Zudem können quelloffene Modelle wie Llama-2-70b eine Balance zwischen Leistung und Erschwinglichkeit bieten.

Es ist wichtig zu erkennen, dass sich dieser Index weiterentwickeln wird, mit neuen Modellen, die entstehen, und bestehenden Modellen, die sich im Laufe der Zeit verbessern. Galileo plant, den Index vierteljährlich zu aktualisieren, um Teams präzise Bewertungen der LLMs hinsichtlich ihrer Neigung zu Halluzinationen über verschiedene Aufgaben hinweg bereitzustellen.

„Unser Ziel ist es, Teams eine solide Grundlage zur Bewältigung von Halluzinationen zu bieten. Obwohl wir nicht erwarten, dass der Halluzinationsindex als definitive Quelle betrachtet wird, hoffen wir, dass er als umfassender Ausgangspunkt für ihre generativen KI-Initiativen dient“, fügte Sanyal hinzu.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles