Fragen zur Leistung des neuen Open-Source-KI-Leiters Reflection 70B, der des 'Betrugs' beschuldigt wird

Home KI-Nachrichten Fragen zur Leistung des neuen Open-Source-KI-Leiters Reflection 70B, der des 'Betrugs' beschuldigt wird

Updated on September 8 2024

An nur einem Wochenende sah sich der neue Herausforderer im Bereich der Open-Source-AI-Modelle erheblichem Prüfstand ausgesetzt, was Zweifel an seinem Ruf aufwarf. Reflection 70B, eine Variante des Llama 3.1 großen Sprachmodells von Meta, das vom New Yorker Startup HyperWrite (ehemals OthersideAI) veröffentlicht wurde, wurde für beeindruckende Benchmarks gelobt. Unabhängige Tester hinterfragten jedoch später die Gültigkeit dieser Ansprüche.

Am 6. September 2024 verkündete HyperWrite-Mitbegründer Matt Shumer in einem Post im sozialen Netzwerk X, dass Reflection 70B "das beste Open-Source-Modell der Welt" sei. Shumer erklärte, dass das Modell "Reflection Tuning" nutze, eine Technik, die LLMs ermöglicht, die Genauigkeit ihrer Ausgaben zu überprüfen, bevor sie den Nutzern präsentiert werden, was die Leistung in verschiedenen Bereichen verbessert.

Bis zum 7. September stellte jedoch eine Organisation namens Artificial Analysis diese Behauptung öffentlich in Frage. Ihre Analyse ergab, dass Reflection 70B denselben MMLU-Wert wie Llama 3 70B erreichte, jedoch deutlich hinter Meta’s Llama 3.1 70B zurückblieb. Dies schuf einen deutlichen Gegensatz zu HyperWrites ursprünglichen Ergebnissen.

Shumer gab später zu, dass die Gewichte des Modells beim Hochladen auf Hugging Face kompromittiert wurden, was die Diskrepanzen in der Leistung im Vergleich zu internen Tests erklären könnte.

Am 8. September, nach Tests einer privaten API, erkannte Artificial Analysis an, dass sie beeindruckende, aber nicht verifizierte Ergebnisse beobachtet hatten, die HyperWrites ursprünglichen Ansprüchen nicht gerecht wurden. Sie stellten auch kritische Fragen zur Veröffentlichung einer ungetesteten Version des Modells und dem Fehlen von veröffentlichten Modellgewichten für die private API-Version.

Mitglieder der Community in AI-fokussierten Reddit-Threads äußerten ebenfalls Skepsis gegenüber der Leistung und Herkunft von Reflection 70B. Einige behaupteten, es scheine sich um eine Variante von Llama 3 und nicht um das erwartete Llama 3.1 zu handeln, was weitere Zweifel an der Legitimität aufwarf. Ein Nutzer beschuldigte Shumer sogar, "Betrug in der AI-Forschungsgemeinschaft" zu begehen.

Trotz der Gegenreaktion verteidigten einige Nutzer Reflection 70B und verwiesen auf gute Leistungen in ihren Anwendungsfällen. Der rasche Wechsel von Aufregung zu Kritik verdeutlicht jedoch die volatile Natur der AI-Landschaft.

48 Stunden lang wartete die AI-Forschungsgemeinschaft auf Updates von Shumer zur Leistung des Modells und zu den korrigierten Gewichten. Am 10. September sprach er schließlich die Kontroversen an und sagte: „Ich bin mit dieser Ankündigung vorgeprescht, und ich entschuldige mich. Wir haben Entscheidungen auf Basis der uns vorliegenden Informationen getroffen. Ich weiß, dass viele auf dieses Potenzial gespannt sind, aber auch skeptisch. Ein Team arbeitet intensiv daran, herauszufinden, was vorgefallen ist. Sobald wir die Fakten geklärt haben, werden wir transparent mit der Community kommunizieren.“

Shumer verwies auf einen Post von Sahil Chaudhary, dem Gründer von Glaive AI, der die Verwirrung rund um die Ansprüche des Modells bestätigte und auf die Schwierigkeiten hinwies, Benchmark-Ergebnisse zu reproduzieren.

Chaudhary erklärte: „Ich möchte die berechtigten Kritiken ansprechen. Ich untersuche die Situation und werde bald eine transparente Zusammenfassung bereitstellen. Zu keinem Zeitpunkt habe ich Modelle von anderen Anbietern genutzt, und ich werde die Diskrepanzen, einschließlich unerwarteter Verhaltensweisen wie dem Überspringen bestimmter Begriffe, erklären. Ich habe noch viel zu uncovern in Bezug auf die Benchmarks, und ich schätze die Geduld der Community, während ich das Vertrauen wiederherstelle.“

Die Situation bleibt ungelöst, während die Skepsis gegenüber sowohl Reflection 70B als auch seinen Ansprüchen innerhalb der Open-Source-AI-Community anhält.

LightEval: Ein Open-Source-Tool von Hugging Face zur Verbesserung der KI-Verantwortlichkeit

Bereiten Sie sich auf eine Ära unvorhersehbarer Preisschwankungen bei GPUs vor.

Most people like

Quivr

24K

Präsentieren Sie Quivr, eine hochmoderne Cloud-Plattform, die für die effiziente Speicherung und den Abruf einer Vielzahl von Datentypen entwickelt wurde. Egal, ob Sie Texte, Bilder oder komplexe Datensätze verwalten, Quivr bietet eine nahtlose Lösung, die auf Ihre Datenverwaltungsbedürfnisse zugeschnitten ist. Erleben Sie heute mit Quivr unvergleichliche Zugänglichkeit und Organisation!

cloudbasierte Plattform Other

Trupeer

96.4K

Revolutionieren Sie Ihr Produktmarketing mit unserer KI-gestützten Plattform, die Bildschirmaufnahmen in ansprechende Produktvideos und umfassende Dokumentationen verwandelt. Optimieren Sie Ihren Inhaltserstellungsprozess und steigern Sie die Zuschauerbindung wie nie zuvor.

KI-gestützt Other

Seaart.ai

11.5M

Entfesseln Sie die Kraft von KI-generierten Illustrationen Entdecken Sie die spannende Welt der KI-Illustrationsgenerierung mit unserer innovativen Plattform. Hier treffen Kreativität und modernste Technologie aufeinander, sodass Nutzer mühelos beeindruckende Illustrationen erstellen können. Egal, ob Sie ein professioneller Künstler, ein Designer oder einfach nur jemand sind, der seine künstlerische Seite erkunden möchte – unsere KI-gesteuerten Werkzeuge bieten Ihnen unendliche Möglichkeiten, um Ihre Ideen zum Leben zu erwecken. Werden Sie noch heute Teil von uns und revolutionieren Sie Ihre visuelle Gestaltung!

KI AI Anime Art

Instant Virtual Staging

101.3K

Transformieren Sie Ihre Immobilienanzeigen mit unserer KI-gestützten virtuelen Staging-App für Immobilienprofis Entdecken Sie, wie unsere innovative, KI-gesteuerte virtuelle Staging-App Ihre Immobilienanzeigen aufwerten kann. Speziell für Immobilienprofis entwickelt, ermöglicht Ihnen dieses leistungsstarke Tool, atemberaubende, fotorealistische Visualisierungen zu erstellen, die potenzielle Käufer fesseln und die Attraktivität der Objekte steigern. Verbessern Sie Ihre Marketingstrategie und heben Sie sich in einem wettbewerbsintensiven Markt mit unserer zukunftsweisenden Technologie ab, die den Präsentationsprozess Ihrer Immobilien optimiert.

Virtuelle Inszenierung AI Photo & Image Generator

Find AI tools in YBX