In der Ära der großen Sprachmodelle (LLMs) streben Unternehmen danach, das effektivste Modell für ihre spezifischen Anwendungen zu implementieren. Diese Aufgabe scheint zwar einfach, jedoch stehen viele Organisationen vor der Herausforderung, die beste Lösung für ihre speziellen Anwendungsfälle in einem sich schnell entwickelnden Umfeld zu identifizieren.
Hier kommt Not Diamond ins Spiel, ein bahnbrechendes Startup, das aus dem Stealth-Modus hervorgeht und der Meinung ist, dass der Schlüssel zu smartem Routing liegt. Not Diamond mit Sitz in San Francisco hat einen innovativen LLM-Router entwickelt, der es Unternehmen ermöglicht, mehrere Modelle gleichzeitig zu nutzen und Anfragen an das am besten geeignete Modell weiterzuleiten. Dieser Ansatz verbessert die Qualität der Ergebnisse und optimiert entscheidende Faktoren wie Latenz und Kosten.
„Unsere grundsätzliche Überzeugung ist, dass die Zukunft nicht aus einem einzigen dominierenden Modell oder Unternehmen bestehen wird, sondern aus zahlreichen Grundmodellen, unzähligen spezialisierten Varianten und einer Vielzahl von benutzerdefinierten Inferenzmaschinen, die darüber operieren. Wir haben Not Diamond gegründet, um diese Multi-Modell-Zukunft zu ermöglichen und die weltweit fortschrittlichste Infrastruktur für das Routing zwischen Modellen anzubieten“, erklärt Tomás Hernando Kofman, Mitgründer und CEO von Not Diamond.
Trotz seiner frühen Phase hat Not Diamond erhebliche Aufmerksamkeit auf sich gezogen und 2,3 Millionen Dollar von defy.vc sowie prominente Persönlichkeiten der KI-Community wie Jeff Dean von Google DeepMind, Julien Chaumond von Hugging Face, Zack Kass von OpenAI und andere gesichert.
Die Herausforderung: Kosten versus aufgabenbezogene Leistung von LLMs
Die Navigation im aktuellen Umfeld der großen Sprachmodelle ist komplex, da jedes Modell – ob Open Source oder proprietär – seine Stärken und Schwächen hat. Die Auswahl eines Modells mit umfangreicher Kontextlänge und hoher Leistung kann oft prohibitively teuer sein. Im Gegensatz dazu könnten günstigere Optionen wesentliche Fähigkeiten vermissen lassen oder hohe Latenzen aufweisen.
Zusätzlich erschwert es die Situation, dass täglich neue Modelle auf den Markt kommen und bestehende Modelle weiterhin bedeutende Updates erhalten, die das Potenzial von Open-Source-Entwicklungen wie Llama 3.1 demonstrieren.
Wie Not Diamond Unternehmen unterstützt
Kofman, der zuvor ein No-Code-KI-Produkt entwickelt hat, sah sich der LLM-Dilemma persönlich gegenüber. Er stellte sich eine Lösung vor: eine Schnittstelle, die es Unternehmen ermöglicht, auf ein Netzwerk spezialisierter Modelle zuzugreifen, anstatt sich auf eine einzige Option zu verlassen. Diese Vision führte ihn zur Zusammenarbeit mit den Machine-Learning-Experten Tze-Yang Tung und Jeffrey Akiki, um Not Diamond zu gründen, das sich auf die Entwicklung einer Infrastruktur konzentriert, die Anfragen intelligent zwischen den Modellen weiterleitet.
„Effektive Routing-Infrastruktur ist entscheidend, um die Leistung von KI-Systemen zu maximieren. Kleinere, spezialisierte Modelle können in bestimmten Bereichen besser abschneiden als größere. Routing verleiht diesen Modellen die Resilienz von allgemeinen Modellen. Dieser Ansatz ist nicht nur recheneffizient, sondern verbessert auch die Interpretierbarkeit und Sicherheit“, erklärte Kofman.
Die innovative Technologie von Not Diamond
Im Zentrum der Lösung von Not Diamond steht ein „Meta-Modell“ und ein Ranking-Algorithmus für LLMs. Dieser Router analysiert eingehende Anfragen umfassend und leitet sie automatisch an das Modell weiter, das am besten in der Lage ist, genaue Antworten zu liefern, während gleichzeitig die Kosteneffizienz maximiert und die Latenz minimiert wird. Dadurch wird es den Teams erspart, große Modelle für einfache Anfragen zu verwenden.
Benchmark-Ergebnisse zeigen, dass der Router von Not Diamond, der mehrere LLMs nutzt, individuelle Modelle wie Llama 3.1 und GPT-4 übertrifft und überlegene Ergebnisse liefert. Um diese Fähigkeit zu entwickeln, hat Not Diamond einen umfangreichen Bewertungsdatensatz erstellt, um die Leistung von LLMs bei verschiedenen Aufgaben zu messen, von der Beantwortung von Fragen bis hin zu Programmierung und Schlussfolgerungen. Das Unternehmen schulte dann einen Ranking-Algorithmus, um das am besten kompatible LLM für jede Anfrage zu identifizieren und den Routing-Prozess zu steuern.
Im Dezember 2023 veröffentlichte Not Diamond eine Open-Source-Vorschau seines Routers, die es Unternehmen ermöglicht, Anfragen zwischen GPT-3.5 und GPT-4 nahtlos zu verwalten, mit Plänen zur Erweiterung auf weitere Modelle. Sollte ein Team den Router in seine internen Arbeitsabläufe für spezifische Anwendungen integrieren wollen, kann es interne Bewertungsdatensätze bereitstellen, um einen maßgeschneiderten Router zu trainieren und die Modellauswahl zu optimieren. Der Router bietet zudem Daten-Hashing und Funktionen zur Aufforderungsübersetzung, um die Leistung zu verbessern.
Förderung der Entwickler-Akzeptanz
Obwohl noch in den Kinderschuhen, verzeichnet Not Diamond eine erhebliche Akzeptanz bei jungen Unternehmen und unabhängigen Entwicklern. Konkrete Nutzerraten sind zwar nicht veröffentlicht, jedoch berichtete der Unternehmenspartner Samwell AI von einer Verbesserung der LLM-Ausgabequalität um 10% sowie von einer 10%igen Senkung der Inferenzkosten und der Latenz durch die Nutzung der Technologie von Not Diamond.
Mit Unterstützung von Branchenführern plant das Unternehmen, seinen Fortschritt auszubauen, die Produktentwicklung zu beschleunigen und die Akzeptanzraten zu erhöhen. Kofman betont, dass Not Diamond eine „Reihe zusätzlicher Produktmerkmale“ in Entwicklung hat, obwohl Einzelheiten noch geheim bleiben.
Im Bereich des intelligenten Abfrage-Routings sieht sich Not Diamond einer Reihe von bemerkenswerten Startups, darunter Martian und Unify, gegenüber. Kofman ist jedoch überzeugt, dass sich Not Diamond durch seine außergewöhnliche Routing-Geschwindigkeit, Optimierung von Eingabeaufforderungen und Datenschutzfunktionen abhebt.