Rockset, ein führender Anbieter von Echtzeit-Datenbanken, erweitert seine Datenbankfunktionen mit fortschrittlicher Vektorsuche und verbesserter Skalierbarkeit.
Basierend auf dem Open-Source-RocksDB-Key-Value-Speicher, der bei Meta (ehemals Facebook) entwickelt wurde, nutzt Rockset eine sich weiterentwickelnde Technologie, die Echtzeit-Indizierungsfunktionen ermöglicht. Das Unternehmen hat insgesamt 105 Millionen US-Dollar an Finanzierung gesichert, darunter eine kürzlich im August bekannt gegebene Runde über 44 Millionen US-Dollar.
Mit dem neuesten Update bringt Rockset die Vektorsuche vollständig in seine Echtzeit-Datenbankplattform ein. Diese Funktion wurde erstmals im April vorgestellt und in den letzten Monaten erheblich verbessert. Frühere Anwender wie die Billigfluggesellschaft JetBlue haben bereits von erfolgreichen Implementierungen der Rockset-Technologie berichtet. Zudem integriert Rockset in Verbindung mit dem Update zur Vektorsuche das beliebte LangChain-Tool zur KI-Orchestrierung und das LlamaIndex-Datenframework.
„Unsere Vektorsuchfunktion ist jetzt allgemein verfügbar und hochentwickelt. Sie können Ähnlichkeitsindizes mit Hilfe von Approximate Nearest Neighbor (ANN)-Technologie in großem Maßstab erstellen, mit Echtzeit-Updates zu Vektor-Embeddings und Metadaten“, sagte Venkat Venkataramani, Mitbegründer und CEO von Rockset.
Echtzeit-Indizierung von Rockset für Vektorsuche
Der Wettbewerb im Vektorsuchmarkt hat im Jahr 2023 zugenommen. Vektoren – numerische Datenrepräsentationen – sind entscheidend für große Sprachmodelle (LLMs). Zahlreiche spezialisierte Vektordatenbanken wie Pinecone und Milvus sind entstanden, neben etablierten Datenbanktechnologien wie DataStax, MongoDB und Neo4j.
Rockset strebt an, sich im Markt hervorzuheben, indem es Echtzeit-Updates für die Vektorsuche bereitstellt. Wenn neue Daten in eine Rockset-Datenbank eingegeben werden, werden sowohl das Datenbank-Index als auch die Vektor-Embeddings in Echtzeit aktualisiert, mit Latenzen im einstelligen Millisekundenbereich. Diese Effizienz ergibt sich aus einem Modell zur Trennung von Rechenressourcen, das die Ressourcen für den Indexaufbau von den für die Abfrageausführung verwendeten isoliert.
„Bei den meisten Vektordatenbanken sind Echtzeit-Updates nicht möglich; sie erfordern eine periodische Neubau des Index“, erklärte Venkataramani.
Beschleunigung der ANN-Vektorähnlichkeitssuche
Die Vektorsuche kann durch verschiedene Methoden ausgeführt werden, darunter Approximate Nearest Neighbor (ANN) und die genauere K Nearest Neighbor (KNN)-Technik. Während ANN effiziente Näherungsergebnisse liefert, berechnet KNN die genauen Top-Übereinstimmungen, was bei großen Datensätzen ressourcenintensiv sein kann.
Rockset setzt sowohl KNN- als auch ANN-Strategien basierend auf der spezifischen Abfrage und dem Datensatz-Kontext ein. Die SQL-Schnittstelle ermöglicht es Nutzern, Vektorsuchen mit Metadatenfiltern zu kombinieren, wobei Rocksets Optimierer automatisch die beste Methode für Geschwindigkeit auswählt.
Dank seiner Echtzeit-Update-Funktion spiegeln Rocksets ANN-Indizes die neuesten Daten innerhalb von Millisekunden wider.
Die Beständigkeit von Vektordatenbanken
Beim jüngsten Entwicklungstag von OpenAI stellte das Unternehmen neue Dienste vor, die das Potenzial haben, die Landschaft der generativen KI zu verändern. Die GPT-Builder- und Assistant-APIs von OpenAI haben Diskussionen über die Zukunft von Vektordatenbanktechnologien angestoßen.
Trotz branchlicher Spekulation bleibt Venkataramani zuversichtlich in Bezug auf die anhaltende Nachfrage nach Vektordatenbanken. Er argumentiert, dass große Unternehmen mit hohen Sicherheits- und Compliance-Anforderungen nicht ausschließlich auf Dienstleistungen Dritter für ihre KI-Initiativen angewiesen sein können.
„Der Bedarf an Vektordatenbanken wird nicht abnehmen, insbesondere bei komplexen Datensätzen, die Retrieval-Augmented Generation (RAG)-Anwendungsfälle antreiben“, erklärte Venkataramani. Er betonte, dass die zugrunde liegende Infrastruktur – die Vektordatenbanken – weiterhin eine entscheidende Rolle spielen wird, während sich KI-Anwendungen weiterentwickeln.
„Ich glaube, dass Vektordatenbanken bleiben werden, unterstützt von einer Vielzahl von aufkommenden Anwendungsfällen über bloße Chatbots hinaus“, schloss er.