Das GPT-4 von OpenAI hat sich laut einer aktuellen Bewertung von Vectara als führendes großes Sprachmodell (LLM) zur Minimierung von Halluzinationen beim Zusammenfassen von Dokumenten etabliert. Das Unternehmen hat ein umfassendes Leaderboard auf GitHub veröffentlicht, das prominente LLMs mit seinem Hallucination Evaluation Model bewertet. Dieses Modell quantifiziert die Häufigkeit von Halluzinationen – Fälle, in denen die KI ungenaue oder erfundene Informationen generiert – während der Dokumentenzusammenfassungen.
Sowohl GPT-4 als auch seine Variante GPT-4 Turbo erzielten herausragende Ergebnisse mit einer Genauigkeitsrate von 97 % und einer minimalen Halluzinationsrate von nur 3 %. Dicht gefolgt von GPT-3.5 Turbo, das eine beeindruckende Genauigkeit von 96,5 % und eine leicht höhere Halluzinationsrate von 3,5 % aufwies.
Unter den Nicht-OpenAI-Konkurrenten fiel Meta's 70 Milliarden Parameter-Version von Llama 2 positiv auf. Sie erreichte eine Genauigkeitsbewertung von 94,9 % und eine Halluzinationsrate von nur 5,1 %. Im starken Gegensatz dazu schnitten Modelle von Google auf dem Leaderboard schlecht ab. Google Palm 2 verzeichnete eine Genauigkeit von 87,9 % bei einer Halluzinationsrate von 12,1 %, während die chat-optimierte Version deutlich abfiel und nur eine Genauigkeit von 72,8 % sowie die höchste Halluzinationsrate von 27,2 % aufwies.
Bemerkenswert ist, dass Google Palm 2 Chat die höchste durchschnittliche Wortzahl pro Zusammenfassung mit 221 Wörtern generierte, während GPT-4 im Durchschnitt 81 Wörter pro Zusammenfassung produzierte.
Bewertung der Methode
Die Bewertung durch Vectara zielt darauf ab, Halluzinationen in den Ausgaben von LLMs zu identifizieren und nutzte dafür Open-Source-Datensätze. Das Unternehmen testete jedes Modell anhand von 1.000 kurzen Dokumenten und forderte Zusammenfassungen basierend ausschließlich auf den in diesen Dokumenten bereitgestellten Inhalten an. Allerdings wurden nur 831 dieser Dokumente von jedem Modell zusammengefasst, da die übrigen aufgrund von Inhaltsbeschränkungen herausgefiltert wurden. Für die Dokumente, die allen Modellen zur Verfügung standen, berechnete Vectara die Gesamtgenauigkeit und Halluzinationsraten.
Es ist wichtig zu beachten, dass der getestete Inhalt frei von illegalem und unangemessenem Material war, die Anwesenheit bestimmter Schlüsselwörter jedoch bei einigen Modellen zu Inhaltsbeschränkungen führte.
Herausforderung Halluzinationen
Das Problem der Halluzinationen stellt ein erhebliches Hindernis für die breite Akzeptanz von generativer KI in Unternehmen dar. Shane Connelly, Produktleiter bei Vectara, hervorgehoben in einem Blogbeitrag, dass die historische Herausforderung darin bestanden hat, Halluzinationen effektiv zu quantifizieren. Frühere Versuche waren oft zu abstrakt oder betrafen kontroverse Themen, was ihre praktische Anwendung für Unternehmen einschränkte.
Das von Vectara entwickelte Hallucination Evaluation Model ist Open-Source, sodass Organisationen es nutzen können, um die Zuverlässigkeit ihrer Sprachmodelle in Retrieval Augmented Generation (RAG)-Frameworks zu bewerten. Dieses Modell ist über Hugging Face verfügbar, wodurch Benutzer es an ihre individuellen Anforderungen anpassen können.
Wie Connelly ausführt: "Unser Ziel ist es, Unternehmen mit den nötigen Erkenntnissen auszustatten, um generative Systeme durch umfassende und quantifizierte Analysen sicher zu implementieren." Durch ein besseres Verständnis der KI-Ausgaben können Unternehmen die Nuancen der generativen KI-Technologie besser navigieren.