Abacus AI, ein auf die Entwicklung einer KI-gesteuerten, umfassenden Plattform für maschinelles Lernen (ML) und LLMOps spezialisiertes Startup, hat ein unzensiertes Open-Source-Model, das als Liberated-Qwen1.5-72B bekannt ist, veröffentlicht. Dieses Modell ist speziell darauf abgestimmt, Systemanweisungen zu befolgen, was seine Anwendbarkeit in realen Anwendungen verbessert.
Liberated-Qwen1.5-72B basiert auf dem transformerbasierten Decoder-Modell Qwen1.5-72B, das von Forschern der Alibaba-Gruppe entwickelt wurde. Seine optimierte Fähigkeit, Systemanweisungen zu folgen, unterscheidet es erheblich von anderen Open-Source-LLMs, wodurch es sich besser für verschiedene Anwendungsfälle, wie etwa Kunden-Chats, eignet.
Bindu Reddy, CEO von Abacus, beschreibt das Modell als das weltweit effektivste unzensierte LLM in Bezug auf Leistung und Einhaltung der Systemanweisungen.
Die Bedeutung der Befolgung von Systemanweisungen in LLMs
Mit der zunehmenden Integration von LLMs in Unternehmensanwendungen, wie beispielsweise im Kunden-Support, ist die Kontrolle über KI-Interaktionen entscheidend. Nutzer führen oft mehrstufige Gespräche, und ohne angemessene Einschränkungen kann die KI von ihrer vorgesehenen Rolle abweichen. So führte ein Nutzer einst einen Chatbot dazu, ein Angebot von 1 $ für einen 2024 Chevy Tahoe zu akzeptieren, wobei die KI fälschlicherweise den Vertrag als rechtlich bindend bestätigte.
Um solche unerwünschten Szenarien zu vermeiden, ist die strikte Einhaltung von Systemanweisungen von größter Bedeutung. Viele Open-Source-Modelle auf dem Markt haben Schwierigkeiten, dieses Niveau zu halten. Abacus zielt darauf ab, mit Liberated-Qwen1.5-72B Abhilfe zu schaffen.
Das Entwicklerteam hat das Modell mit einem neuartigen Open-Source-Datensatz namens SystemChat optimiert, der 7.000 synthetische Gespräche umfasst, die mit Mistral-Medium und Dolphin-2.7-mixtral-8x7b erstellt wurden. Dieses Training ermöglicht es dem Modell, Systemnachrichten zu befolgen, auch wenn sie mit Nutzeranfragen während der Gespräche in Konflikt stehen.
Reddy hebt auf X hervor: „Die Feinabstimmung Ihres Modells mit diesem Datensatz macht es deutlich nutzerfreundlicher und schwieriger zu manipulieren!“
Leistungsberichte
Tests auf den MT-Bench- und HumanEval-Benchmark zeigen, dass Liberated-Qwen1.5-72B das vorherige beste Open-Source-Modell, Qwen1.5-72B chat, geringfügig übertroffen hat, mit Punktzahlen von 8,45000 im Vergleich zu 8,44375. Im MMLU-Benchmark, der Allgemeinwissen und Problemlösung bewertet, erzielte das Modell 77,13 – vergleichbar mit anderen leistungsstarken Modellen wie Qwen1.5-72B und Abacus' Smaug-72B.
Es ist wichtig zu beachten, dass Liberated-Qwen1.5-72B effektiv, aber unzensiert bleibt und über keine integrierten Schutzmaßnahmen verfügt. Das bedeutet, dass es auf alle Fragen, einschließlich sensibler Themen, reagiert, während es dennoch Systemnachrichten befolgt. Abacus rät Nutzern, eigene Ausrichtungsmaßnahmen zu implementieren, bevor sie das Modell in einem Dienstkontext einsetzen.
Aktuell ist Liberated-Qwen1.5-72B unter der tongyi-qianwen-Lizenz verfügbar, die nahezu der MIT-Lizenz entspricht. Reddy hat Pläne geäußert, das Modell weiter zu verbessern, insbesondere für HumanEval, und fortschrittlichere Modelle zu entwickeln, indem der SystemChat-Datensatz mit den Datensätzen von Smaug kombiniert wird.
In den kommenden Wochen plant Abacus, die MT-Bench-Werte zu optimieren und die Spitzenposition im HumanEval-Dashboard anzustreben.