Drittanbieter-Bewertungen konnten die von Matt Shumer, Mitbegründer und CEO des KI-Schreib-Startups HyperWrite, veröffentlichten Leistungskennzahlen des Modells Reflection 70B nicht reproduzieren. Dies führte zu Betrugsvorwürfen gegen Shumer auf X.
Ein neuer Mitspieler hat sich im KI-Bereich präsentiert: Matt Shumer hat Reflection 70B angekündigt, ein großes Sprachmodell (LLM) basierend auf Metas Open-Source Llama 3.1-70B Instruct. Dieses Modell nutzt eine innovative Selbstkorrekturtechnik, die in unabhängigen Benchmark-Tests beeindruckende Ergebnisse zeigt.
In einem Post auf X erklärte Shumer, dass Reflection 70B „das beste Open-Source-KI-Modell der Welt“ sei. Er teilte ein Benchmark-Leistungsdiagramm, das die überlegenen Ergebnisse des Modells hervorhebt.
Umfassende Tests und Leistungsfähigkeit
Reflection 70B hat umfassende Tests mit Benchmarks wie MMLU und HumanEval durchlaufen, wobei der LLM Decontaminator von LMSys saubere Ergebnisse gewährleistet. Die Ergebnisse zeigen, dass Reflection konstant die Modelle der Llama-Serie von Meta übertrifft und eng mit führenden kommerziellen Modellen konkurriert.
Nutzer können dieses Modell direkt auf der Demoseite ausprobieren. Shumer wies jedoch darauf hin, dass die Bekanntgabe bedeutenden Verkehr generiert hat und sein Team hastig zusätzliche GPUs beschafft, um der Nachfrage gerecht zu werden.
Einzigartige Fähigkeiten von Reflection 70B
Shumer betonte, dass Reflection 70B besondere Vorteile bietet, insbesondere bei der Fehleridentifikation und -korrektur. Er erklärte: „LLMs halluzinieren oft, ohne in der Lage zu sein, ihre Kursierung zu korrigieren. Was wäre, wenn ein LLM lernen könnte, seine eigenen Fehler zu erkennen und zu korrigieren?“
Dieser Gedanke führte zur Bezeichnung „Reflection“, da das Modell seine Ausgaben auf Genauigkeit überprüfen kann, bevor es sie dem Nutzer präsentiert. Sein Vorteil liegt im "Reflection Tuning", einer Technik, die es ihm ermöglicht, Mängel in seinem Denken zu erkennen und diese vor der endgültigen Antwort zu beheben.
Reflection 70B führt spezielle Tokens für strukturiertes Denken und Fehlerkorrektur ein, die eine nahtlose Interaktion mit dem Nutzer ermöglichen. Während der Inferenz liefert das Modell Denkprozesse innerhalb benannter Tags, was Echtzeitkorrekturen bei der Identifizierung von Fehlern ermöglicht.
Die Demoversion enthält Vorschläge für Eingaben, wie das Zählen des Buchstabens "r" in „Erdbeere“ und die Bestimmung, welche Zahl größer ist, 9.11 oder 9.9 – Aufgaben, die viele KI-Modelle, einschließlich bekannter proprietärer Modelle, häufig falsch berechnen. In unseren Tests lieferte Reflection 70B schließlich nach einer kurzen Verzögerung die korrekte Antwort.
Diese Funktionalität macht das Modell besonders wertvoll für Aufgaben, die hohe Genauigkeit erfordern, da es das Denken in distincten Schritten für verbesserte Präzision gliedert. Reflection 70B ist über Hugging Face verfügbar, API-Zugriff wird später heute über Hyperbolic Labs erwartet.
Erwartungen an Reflection 405B
Die Veröffentlichung von Reflection 70B ist nur der Anfang. Shumer kündigte an, dass nächste Woche ein noch größeres Modell, Reflection 405B, präsentiert wird. Er erwähnte laufende Bemühungen, Reflection 70B in das Hauptprodukt von HyperWrite, den KI-Schreibassistenten, zu integrieren und sagte: „Ich werde bald mehr dazu teilen.“
Reflection 405B soll die besten geschlossenen Modelle, die derzeit verfügbar sind, übertreffen. Shumer gab auch an, dass ein detaillierter Bericht über den Trainingsprozess und die Benchmarks veröffentlicht wird, um Einblicke in die Innovationen der Reflection-Serie zu geben.
Basierend auf Metas Llama 3.1 70B Instruct bleibt Reflection 70B mit bestehenden Werkzeugen und Pipelines durch das Llama-Chat-Format kompatibel.
Beitrag der synthetischen Daten durch Glaive
Ein entscheidender Faktor für den Erfolg von Reflection 70B sind die von Glaive generierten synthetischen Daten, einem Startup, das sich auf die Erstellung spezifischer Datensätze für Anwendungsfälle konzentriert. Die Plattform von Glaive ermöglicht das schnelle Training kleiner, gezielter Sprachmodelle und adressiert einen signifikanten Engpass in der KI-Entwicklung: die Verfügbarkeit hochwertiger, aufgaben-spezifischer Daten.
Durch die Produktion synthetischer Datensätze, die auf spezifische Bedürfnisse zugeschnitten sind, ermöglicht Glaive Unternehmen, Modelle effizient und wirtschaftlich anzupassen. Das Unternehmen hat bereits mit kleineren Modellen, wie einem 3B-Parameter-Modell, das größere Open-Source-Alternativen in Aufgaben wie HumanEval übertroffen hat, Erfolg gehabt. Spark Capital hat Glaive mit einer Seed-Investition von 3,5 Millionen Dollar unterstützt, um seine Vision eines demokratisierten KI-Ökosystems voranzubringen.
Durch die Nutzung von Glaives Technologie generierte das Reflection-Team hochwertige synthetische Daten und beschleunigte somit die Entwicklung erheblich. Laut Shumer dauerte der Trainingsprozess drei Wochen und umfasste fünf Iterationen des Modells, mit einem maßgeschneiderten Datensatz, der mit Glaives Systemen erstellt wurde.
Hintergrund von HyperWrite
Obwohl es den Anschein haben mag, dass Reflection 70B plötzlich erschien, ist Shumer seit Jahren im KI-Sektor tätig. 2020 gründete er gemeinsam mit Jason Kuperberg in Melville, New York, das Unternehmen, das ursprünglich als Otherside AI bekannt war. Das Unternehmen erlangte Aufmerksamkeit mit HyperWrite, seinem Hauptprodukt, das sich von einer Chrome-Erweiterung für das Verfassen von E-Mails zu einem umfassenden KI-Schreibassistenten entwickelte, der Essays verfassen und E-Mails organisieren kann. Im November 2023 zählte HyperWrite zwei Millionen Nutzer und sicherte damit den Gründern einen Platz auf der Forbes-Liste „30 Under 30“.
Im März 2023 sicherte sich HyperWrite 2,8 Millionen Dollar von Investoren, darunter Madrona Venture Group, und ermöglichte die Einführung innovativer KI-gesteuerter Funktionen, die Webbrowser in virtuelle Assistenten verwandeln, die verschiedene Aufgaben übernehmen.
Shumer betont, dass Genauigkeit und Sicherheit für HyperWrite von größter Bedeutung bleiben, insbesondere beim Einstieg in komplexe Automatisierung. Die Plattform verfeinert kontinuierlich ihr persönliches Assistenztool und wendet dabei dieselbe Sorgfalt für Präzision und Verantwortung an, die auch in Reflection 70B zu finden ist.
Zukunftsperspektiven für HyperWrite und die Reflection-Modelle
In die Zukunft blickend plant Shumer noch größere Fortschritte für die Reflection-Serie. Mit der bevorstehenden Einführung von Reflection 405B ist er überzeugt, dass es die Leistung geschlossener Modelle wie OpenAIs GPT-4o erheblich übertreffen wird.
Das stellt nicht nur eine Herausforderung für OpenAI dar, das Berichten zufolge erhebliche neue Investitionen von großen Akteuren wie Nvidia und Apple sucht, sondern auch für andere Anbieter geschlossener Modelle wie Anthropic und Microsoft.
Während sich die Landschaft der generativen KI weiterentwickelt, verschiebt sich das Machtverhältnis erneut. Die Einführung von Reflection 70B markiert einen entscheidenden Moment für Open-Source-KI und ermöglicht Entwicklern und Forschern den Zugriff auf ein leistungsstarkes Werkzeug, das mit proprietären Modellen konkurriert. Mit seinem innovativen Ansatz zur Denkweise und Fehlerkorrektur könnte Reflection einen neuen Maßstab für die Fähigkeiten von Open-Source-Modellen setzen.