Leaderboard: OpenAI’s GPT-4 erreicht die niedrigste Halluzinationsrate

Home KI-Nachrichten Leaderboard: OpenAI’s GPT-4 erreicht die niedrigste Halluzinationsrate

Updated on Oktober 25 2024

Das GPT-4 von OpenAI hat sich laut einer aktuellen Bewertung von Vectara als führendes großes Sprachmodell (LLM) zur Minimierung von Halluzinationen beim Zusammenfassen von Dokumenten etabliert. Das Unternehmen hat ein umfassendes Leaderboard auf GitHub veröffentlicht, das prominente LLMs mit seinem Hallucination Evaluation Model bewertet. Dieses Modell quantifiziert die Häufigkeit von Halluzinationen – Fälle, in denen die KI ungenaue oder erfundene Informationen generiert – während der Dokumentenzusammenfassungen.

Sowohl GPT-4 als auch seine Variante GPT-4 Turbo erzielten herausragende Ergebnisse mit einer Genauigkeitsrate von 97 % und einer minimalen Halluzinationsrate von nur 3 %. Dicht gefolgt von GPT-3.5 Turbo, das eine beeindruckende Genauigkeit von 96,5 % und eine leicht höhere Halluzinationsrate von 3,5 % aufwies.

Unter den Nicht-OpenAI-Konkurrenten fiel Meta's 70 Milliarden Parameter-Version von Llama 2 positiv auf. Sie erreichte eine Genauigkeitsbewertung von 94,9 % und eine Halluzinationsrate von nur 5,1 %. Im starken Gegensatz dazu schnitten Modelle von Google auf dem Leaderboard schlecht ab. Google Palm 2 verzeichnete eine Genauigkeit von 87,9 % bei einer Halluzinationsrate von 12,1 %, während die chat-optimierte Version deutlich abfiel und nur eine Genauigkeit von 72,8 % sowie die höchste Halluzinationsrate von 27,2 % aufwies.

Bemerkenswert ist, dass Google Palm 2 Chat die höchste durchschnittliche Wortzahl pro Zusammenfassung mit 221 Wörtern generierte, während GPT-4 im Durchschnitt 81 Wörter pro Zusammenfassung produzierte.

Bewertung der Methode

Die Bewertung durch Vectara zielt darauf ab, Halluzinationen in den Ausgaben von LLMs zu identifizieren und nutzte dafür Open-Source-Datensätze. Das Unternehmen testete jedes Modell anhand von 1.000 kurzen Dokumenten und forderte Zusammenfassungen basierend ausschließlich auf den in diesen Dokumenten bereitgestellten Inhalten an. Allerdings wurden nur 831 dieser Dokumente von jedem Modell zusammengefasst, da die übrigen aufgrund von Inhaltsbeschränkungen herausgefiltert wurden. Für die Dokumente, die allen Modellen zur Verfügung standen, berechnete Vectara die Gesamtgenauigkeit und Halluzinationsraten.

Es ist wichtig zu beachten, dass der getestete Inhalt frei von illegalem und unangemessenem Material war, die Anwesenheit bestimmter Schlüsselwörter jedoch bei einigen Modellen zu Inhaltsbeschränkungen führte.

Herausforderung Halluzinationen

Das Problem der Halluzinationen stellt ein erhebliches Hindernis für die breite Akzeptanz von generativer KI in Unternehmen dar. Shane Connelly, Produktleiter bei Vectara, hervorgehoben in einem Blogbeitrag, dass die historische Herausforderung darin bestanden hat, Halluzinationen effektiv zu quantifizieren. Frühere Versuche waren oft zu abstrakt oder betrafen kontroverse Themen, was ihre praktische Anwendung für Unternehmen einschränkte.

Das von Vectara entwickelte Hallucination Evaluation Model ist Open-Source, sodass Organisationen es nutzen können, um die Zuverlässigkeit ihrer Sprachmodelle in Retrieval Augmented Generation (RAG)-Frameworks zu bewerten. Dieses Modell ist über Hugging Face verfügbar, wodurch Benutzer es an ihre individuellen Anforderungen anpassen können.

Wie Connelly ausführt: "Unser Ziel ist es, Unternehmen mit den nötigen Erkenntnissen auszustatten, um generative Systeme durch umfassende und quantifizierte Analysen sicher zu implementieren." Durch ein besseres Verständnis der KI-Ausgaben können Unternehmen die Nuancen der generativen KI-Technologie besser navigieren.

Bahnbrechend: Zwei KI-Systeme Verhandeln Erfolgreich Ihren Eigenen Vertrag

OpenAI strebte Fusion mit Anthropic an: Sam Altman als 'Märtyrer' bezeichnet

Most people like

Towards AI Jobs

27.4K

Entdecken Sie die ultimative Jobbörse, die speziell für Fachkräfte im Bereich Machine Learning entwickelt wurde. Vernetzen Sie sich mit führenden Unternehmen und entdecken Sie maßgeschneiderte Jobangebote in dem sich ständig weiterentwickelnden Bereich des Machine Learning. Beginnen Sie noch heute Ihre Reise zu Ihrem Traumjob!

Maschinelles Lernen AI Recruiting

Prompt Vibes

35.2K

Prompt Vibes bietet eine umfassende Sammlung wertvoller ChatGPT-Prompts, die die Entwicklung von Chatbots verbessern sollen.

Chatbot AI Code Generator

CoCoClip.AI

253.1K

Präsentation des ultimativen KI-Videoeditors zur Erstellung fesselnder Social-Media-Clips Entfesseln Sie die Kraft unseres fortschrittlichen KI-Videoeditors, der Ihnen hilft, mühelos atemberaubende Videos für soziale Medien zu erstellen. Egal, ob Sie ein erfahrener Creator oder neu im Geschäft sind, dieses intuitive Tool vereinfacht den Bearbeitungsprozess und ermöglicht es Ihnen, ansprechende Inhalte zu produzieren, die Ihr Publikum fesseln und Ihre Online-Präsenz stärken.

KI-Video-Editor AI Video Generator

Clipto

553.9K

Entdecken Sie unseren fortschrittlichen KI-Transkriptionsservice, der Audios, Videos und YouTube-Dateien mühelos in präzisen Text umwandelt. Erleben Sie die Effizienz und Genauigkeit automatisierter Transkription, die die Barrierefreiheit verbessert und das Engagement mit Inhalten steigert.

KI-Transkription Transcription

Find AI tools in YBX