LiveBench: Ein offenes LLM-Benchmark mit kontaminationsfreien Testdaten und objektiver Bewertung

Home KI-Nachrichten LiveBench: Ein offenes LLM-Benchmark mit kontaminationsfreien Testdaten und objektiver Bewertung

Ein gemeinsames Team von Abacus.AI, der New York University, Nvidia, der University of Maryland und der University of Southern California hat LiveBench eingeführt, ein bahnbrechendes Benchmark-Tool, das wesentliche Einschränkungen bestehender Branchenstandards überwinden soll. LiveBench dient als allgemeines Evaluierungstool für große Sprachmodelle (LLMs) und bietet kontaminationsfreie Testdatensätze, unter denen frühere Benchmarks oft aufgrund wiederholter Nutzung über verschiedene Modelle litten.

Was ist ein Benchmark?

Ein Benchmark ist ein standardisierter Test, der die Leistung von KI-Modellen durch eine Reihe von Aufgaben oder Metriken bewertet. Er ermöglicht Forschern und Entwicklern den Vergleich von Ergebnissen, das Verfolgen von Fortschritten und das Verständnis der Fähigkeiten unterschiedlicher Modelle.

LiveBench ist besonders bemerkenswert, da es Beiträge von KI-Vordenker Yann LeCun, dem Chief AI Scientist von Meta, sowie von Colin White, dem Forschungsleiter bei Abacus.AI, und mehreren anderen führenden Forschern umfasst. Goldblum, ein Schlüsselmitarbeiter, betonte die Notwendigkeit verbesserter LLM-Benchmarks und erklärte, dass diese Initiative durch die Notwendigkeit frischer, vielfältiger Fragen zur Beseitigung von Testdatensatz-Kontaminationen motiviert wurde.

LiveBench: Wichtige Merkmale

Der Aufstieg der LLMs hat die Unzulänglichkeiten traditioneller Machine-Learning-Benchmarks hervorgehoben. Die meisten Benchmarks sind öffentlich zugänglich, und viele moderne LLMs verwenden große Teile von Internetdaten während des Trainings. Wenn ein LLM Benchmark-Fragen während des Trainings begegnet, kann seine Leistung unrealistisch hoch erscheinen, was Bedenken hinsichtlich der Zuverlässigkeit solcher Bewertungen aufwirft.

LiveBench zielt darauf ab, diese Mängel zu beheben, indem es jeden Monat aktualisierte Fragen aus verschiedenen aktuellen Datensätzen, Mathematikwettbewerben, arXiv-Papiere, Nachrichtenartikeln und IMDb-Filmzusammenfassungen veröffentlicht. Derzeit stehen 960 Fragen zur Verfügung, jede mit einer überprüfbaren, objektiven Antwort, die eine genaue Bewertung ohne LLM-Richter ermöglicht.

Aufgabenkategorien

LiveBench umfasst 18 Aufgaben in sechs Kategorien und nutzt kontinuierlich aktualisierte Informationsquellen, um die Vielfalt und Herausforderung der Fragen zu erhöhen. Im Folgenden sind die Aufgabenkategorien aufgeführt:

- Mathematik: Fragen aus Mathematikwettbewerben für Schüler und fortgeschrittene AMPS-Probleme.

- Programmierung: Umfasst die Codegenerierung und eine neuartige Aufgabe zur Codevervollständigung.

- Logik: Anspruchsvolle Szenarien aus Big-Bench Hard’s Web of Lies und Positionslogik.

- Sprachverständnis: Aufgaben, die Wortspiele, Tippfehlerbehebung und das Entwirren von Filmzusammenfassungen betreffen.

- Befolgung von Anweisungen: Vier Aufgaben zum Paraphrasieren, Zusammenfassen und Geschichtenerzählen basierend auf aktuellen Artikeln.

- Datenanalyse: Aufgaben, die Tabellen umformatieren, kombinierbare Spalten identifizieren und Spaltentypen anhand aktueller Datensätze vorhersagen.

Modelle werden anhand ihrer Erfolgsraten bewertet, die zwischen 30% und 70% liegen sollten und die Schwierigkeit der Aufgaben widerspiegeln.

LiveBench LLM-Rangliste

Stand 12. Juni 2024 hat LiveBench zahlreiche prominente LLMs evaluiert und gezeigt, dass die besten Modelle weniger als 60% Genauigkeit erreicht haben. Beispielsweise führt OpenAIs GPT-4o mit einem Durchschnittswert von 53,79, gefolgt von GPT-4 Turbo mit 53,34.

Auswirkungen für Unternehmensleiter

Die Navigation im KI-Bereich stellt Unternehmensleitern besondere Herausforderungen, insbesondere bei der Auswahl des richtigen LLM. Benchmarks bieten Sicherheit in Bezug auf die Modellleistung, liefern jedoch oft nicht das vollständige Bild. Goldblum hebt hervor, dass LiveBench den Vergleich von Modellen vereinfacht und Bedenken hinsichtlich Datenkontamination und Bias in menschlichen Bewertungen verringert.

Vergleich mit bestehenden Benchmarks

Das LiveBench-Team hat Analysen im Vergleich zu etablierten Benchmarks wie dem Chatbot Arena von LMSYS und Arena-Hard durchgeführt. Während die Trends von LiveBench allgemein mit anderen Benchmarks übereinstimmen, zeigen spezifische Abweichungen potenzielle Bias bei der Bewertung durch LLMs auf.

LiveBench wurde als Open-Source-Tool entwickelt, das es jedem ermöglicht, es zu nutzen, Beiträge zu leisten und seine Fähigkeiten zu erweitern. Wie White anmerkt, sind effektive Benchmarks entscheidend für die Entwicklung leistungsstarker LLMs, was wiederum die Modellinnovation beschleunigt. Entwickler können den Code von LiveBench über GitHubzugreifen und seine Datensätze auf Hugging Face nutzen.

Revolutionäre Transformer-Architektur: Leistungsstarke LLMs ohne GPUs freischalten

Lumas Traummaschine gestartet: Wir brauchen Sora nicht mehr – Neuer KI-Videogenerator verzeichnet Verkehrszuwachs

Most people like

Abby

24.1K

Entdecken Sie Ihren rund um die Uhr verfügbaren, KI-gestützten persönlichen Therapeuten, der Ihnen jederzeit Unterstützung für Ihre mentale Gesundheit bietet.

KI-Therapie AI Chatbot

Supademo: AI Interactive Product Demos

331.4K

Verbessern Sie Ihre Produktkommunikation mit ansprechenden, KI-gesteuerten interaktiven Demos, die Ihr Publikum fesseln.

interaktive Demos AI Presentation Generator

BiGe AIPPT

65.1K

Sind Sie es leid, Stunden mit PowerPoint-Präsentationen zu verbringen? Entdecken Sie das bahnbrechende KI-gestützte Tool zur Erstellung von PPTs, das Ihren Präsentationsprozess vereinfacht. Diese innovative Technologie nutzt künstliche Intelligenz, um Ihnen zu helfen, ansprechende Folien schnell und mühelos zu gestalten, damit Sie sich auf die Übermittlung Ihrer Botschaft konzentrieren können. Steigern Sie Ihre Präsentationen und sparen Sie wertvolle Zeit mit dieser intuitiven Lösung, die für alle Fachleute entwickelt wurde, die ihre Kommunikationsfähigkeiten verbessern möchten.

KI-gestützt AI Presentation Generator

WriteMail.ai

132.5K

Präsentation eines innovativen KI-Tools, das die Erstellung professioneller E-Mails mit bemerkenswerter Effizienz optimiert. Verabschieden Sie sich von den Schwierigkeiten einer Schreibblockade und zeitaufwändigen Anpassungen – diese KI-gesteuerte Lösung hilft Ihnen, in kürzester Zeit ansprechende Nachrichten zu verfassen. Ideal für vielbeschäftigte Fachleute, die ihre Kommunikationsfähigkeiten verbessern möchten, sorgt unser Tool dafür, dass Ihre E-Mails sowohl effektiv als auch ansprechend sind.

KI-E-Mail-Tool AI Email Writer

Find AI tools in YBX