An nur einem Wochenende sah sich der neue Herausforderer im Bereich der Open-Source-AI-Modelle erheblichem Prüfstand ausgesetzt, was Zweifel an seinem Ruf aufwarf. Reflection 70B, eine Variante des Llama 3.1 großen Sprachmodells von Meta, das vom New Yorker Startup HyperWrite (ehemals OthersideAI) veröffentlicht wurde, wurde für beeindruckende Benchmarks gelobt. Unabhängige Tester hinterfragten jedoch später die Gültigkeit dieser Ansprüche.
Am 6. September 2024 verkündete HyperWrite-Mitbegründer Matt Shumer in einem Post im sozialen Netzwerk X, dass Reflection 70B "das beste Open-Source-Modell der Welt" sei. Shumer erklärte, dass das Modell "Reflection Tuning" nutze, eine Technik, die LLMs ermöglicht, die Genauigkeit ihrer Ausgaben zu überprüfen, bevor sie den Nutzern präsentiert werden, was die Leistung in verschiedenen Bereichen verbessert.
Bis zum 7. September stellte jedoch eine Organisation namens Artificial Analysis diese Behauptung öffentlich in Frage. Ihre Analyse ergab, dass Reflection 70B denselben MMLU-Wert wie Llama 3 70B erreichte, jedoch deutlich hinter Meta’s Llama 3.1 70B zurückblieb. Dies schuf einen deutlichen Gegensatz zu HyperWrites ursprünglichen Ergebnissen.
Shumer gab später zu, dass die Gewichte des Modells beim Hochladen auf Hugging Face kompromittiert wurden, was die Diskrepanzen in der Leistung im Vergleich zu internen Tests erklären könnte.
Am 8. September, nach Tests einer privaten API, erkannte Artificial Analysis an, dass sie beeindruckende, aber nicht verifizierte Ergebnisse beobachtet hatten, die HyperWrites ursprünglichen Ansprüchen nicht gerecht wurden. Sie stellten auch kritische Fragen zur Veröffentlichung einer ungetesteten Version des Modells und dem Fehlen von veröffentlichten Modellgewichten für die private API-Version.
Mitglieder der Community in AI-fokussierten Reddit-Threads äußerten ebenfalls Skepsis gegenüber der Leistung und Herkunft von Reflection 70B. Einige behaupteten, es scheine sich um eine Variante von Llama 3 und nicht um das erwartete Llama 3.1 zu handeln, was weitere Zweifel an der Legitimität aufwarf. Ein Nutzer beschuldigte Shumer sogar, "Betrug in der AI-Forschungsgemeinschaft" zu begehen.
Trotz der Gegenreaktion verteidigten einige Nutzer Reflection 70B und verwiesen auf gute Leistungen in ihren Anwendungsfällen. Der rasche Wechsel von Aufregung zu Kritik verdeutlicht jedoch die volatile Natur der AI-Landschaft.
48 Stunden lang wartete die AI-Forschungsgemeinschaft auf Updates von Shumer zur Leistung des Modells und zu den korrigierten Gewichten. Am 10. September sprach er schließlich die Kontroversen an und sagte: „Ich bin mit dieser Ankündigung vorgeprescht, und ich entschuldige mich. Wir haben Entscheidungen auf Basis der uns vorliegenden Informationen getroffen. Ich weiß, dass viele auf dieses Potenzial gespannt sind, aber auch skeptisch. Ein Team arbeitet intensiv daran, herauszufinden, was vorgefallen ist. Sobald wir die Fakten geklärt haben, werden wir transparent mit der Community kommunizieren.“
Shumer verwies auf einen Post von Sahil Chaudhary, dem Gründer von Glaive AI, der die Verwirrung rund um die Ansprüche des Modells bestätigte und auf die Schwierigkeiten hinwies, Benchmark-Ergebnisse zu reproduzieren.
Chaudhary erklärte: „Ich möchte die berechtigten Kritiken ansprechen. Ich untersuche die Situation und werde bald eine transparente Zusammenfassung bereitstellen. Zu keinem Zeitpunkt habe ich Modelle von anderen Anbietern genutzt, und ich werde die Diskrepanzen, einschließlich unerwarteter Verhaltensweisen wie dem Überspringen bestimmter Begriffe, erklären. Ich habe noch viel zu uncovern in Bezug auf die Benchmarks, und ich schätze die Geduld der Community, während ich das Vertrauen wiederherstelle.“
Die Situation bleibt ungelöst, während die Skepsis gegenüber sowohl Reflection 70B als auch seinen Ansprüchen innerhalb der Open-Source-AI-Community anhält.