Das in Toronto ansässige KI-Startup Cohere hat Embed V3 vorgestellt, die neueste Version seines Einbettungsmodells, das für semantische Suche und Anwendungen mit großen Sprachmodellen (LLMs) optimiert ist. Einbettungsmodelle wandeln Daten in numerische Darstellungen um, die als „Embeddings“ bekannt sind. Diese haben an Bedeutung gewonnen mit der zunehmenden Verwendung von LLMs in Unternehmensanwendungen.
Embed V3 konkurriert mit OpenAIs Ada und verschiedenen Open-Source-Modellen und zielt auf eine überlegene Leistung sowie verbesserte Datenkompression ab. Diese Verbesserungen sollen die Betriebskosten für LLM-Anwendungen in Unternehmen senken.
Die Rolle von Embeddings in RAG
Embeddings sind entscheidend für verschiedene Aufgaben, einschließlich der Retrieval-augmented Generation (RAG), einer zentralen Anwendung von LLMs im Unternehmensbereich. RAG ermöglicht Entwicklern, LLMs durch das Abrufen von Informationen aus Quellen wie Benutzerhandbüchern, Chatverläufen, Artikeln oder Dokumenten, die nicht Teil des ursprünglichen Trainingsdatensatzes waren, Kontext zu bieten.
Um RAG zu nutzen, generieren Unternehmen Embeddings für ihre Dokumente und speichern sie in einer Vektordatenbank. Wenn ein Benutzer das Modell abfragt, berechnet das KI-System das Embedding der Eingabe und vergleicht es mit den gespeicherten Embeddings, um die relevantesten Dokumente abzurufen und den Kontext der Eingabe zu verbessern.
Herausforderungen in der Unternehmens-KI überwinden
RAG adressiert einige Einschränkungen von LLMs, wie den Mangel an Echtzeitinformationen und die Neigung, ungenaue Inhalte zu erzeugen, die oft als „Halluzinationen“ bezeichnet werden. Dennoch bleibt es eine Herausforderung, die relevantesten Dokumente für Benutzeranfragen zu finden.
Frühere Einbettungsmodelle haben Schwierigkeiten mit verrauschten Datensätzen erlebt, bei denen irrelevante Dokumente aufgrund einfacher Schlüsselwortübereinstimmungen höher eingestuft werden konnten. Zum Beispiel könnte ein älteres Modell in einer Suche nach „COVID-19-Symptomen“ ein Dokument priorisieren, das den Begriff vage erwähnt, anstatt eines, das spezifische Symptome beschreibt.
Cohere’s Embed V3 überzeugt bei der Abgleichung von Dokumenten mit Anfragen, indem es präzisen semantischen Kontext bietet. Im Beispiel „COVID-19-Symptome“ würde Embed V3 ein Dokument, das spezifische Symptome wie „hohe Temperatur“, „anhaltender Husten“ oder „Geruchs- oder Geschmacksverlust“ beschreibt, höher einstufen als eine allgemeine Aussage zu COVID-19.
Cohere berichtet, dass Embed V3 in standardisierten Benchmarks zur Einbettungsleistung andere Modelle, einschließlich OpenAIs ada-002, übertrifft. Embed V3 ist in verschiedenen Größen erhältlich und umfasst auch eine mehrsprachige Version, die Abfragen mit Dokumenten in verschiedenen Sprachen abgleicht und so die Auffindbarkeit relevanter Dokumente in mehreren Sprachen für englische Anfragen erleichtert.
RAG durch fortschrittliche Funktionen verbessern
Embed V3 zeigt eine außergewöhnliche Leistung bei komplexen Anwendungsfällen, einschließlich mehrstufiger RAG-Anfragen. Wenn eine Benutzeranfrage mehrere Abfragen umfasst, identifiziert das Modell effektiv relevante Dokumente für jede Anfrage und optimiert den Prozess.
Diese Effizienz reduziert die Notwendigkeit für mehrere Abfragen an die Vektordatenbank. Darüber hinaus verbessert Embed V3 das Nachbewerten—eine Funktion, die Cohere in seine API integriert hat—um Suchergebnisse besser nach semantischer Relevanz zu organisieren.
„Das Nachbewerten ist besonders effektiv bei komplexen Abfragen und Dokumenten, da traditionelle Einbettungsmodelle in diesen Szenarien Schwierigkeiten haben können“, erklärte ein Sprecher von Cohere. „Damit das Nachbewerten effektiv ist, muss die anfängliche Dokumentenauswahl die relevantesten Informationen genau repräsentieren. Ein übergeordnetes Modell wie Embed V3 stellt sicher, dass keine relevanten Dokumente übersehen werden.“
Darüber hinaus kann Embed V3 die Kosten für den Betrieb von Vektordatenbanken deutlich senken. Der dreistufige Trainingsprozess des Modells beinhaltet eine spezialisierte, kompressionsbewusste Trainingsmethode. Ein Sprecher bemerkte: „Die Kosten für die Wartung einer Vektordatenbank können 10- bis 100-mal höher sein als die Berechnung der Embeddings. Unser kompressionsbewusstes Training ermöglicht eine effektive Vektorkompression.“
Laut Cohere's Blog optimiert diese Kompressionsphase die Modelle für die Kompatibilität mit verschiedenen Kompressionsmethoden, wodurch die Kosten für Vektordatenbanken erheblich gesenkt werden, während eine Suchqualität von bis zu 99,99 % erhalten bleibt.