DataStax verbessert die Entwicklung von generativer KI mit neuem Daten-API
DataStax hat ein neues Daten-API eingeführt, das die Erstellung von Retrieval-Augmented Generation (RAG)-Anwendungen für Entwickler vereinfachen soll. Als führender Anbieter der Open-Source-Datenbank Apache Cassandra betreibt DataStax seine AstraDB Cloud-Datenbank-as-a-Service mit dieser Technologie. 2023 wurden Vektordatenbank-Funktionen in die Plattform integriert, wodurch sich das Unternehmen neben wichtigen Mitbewerbern positioniert hat. Bei einer kürzlichen Veranstaltung bezeichnete der CEO von DataStax Cassandra selbstbewusst als „die beste Datenbank für generative KI“.
Die Macht der Vektordatenbanken entfesseln
Vektordatenbank-Funktionen sind entscheidend für RAG-Anwendungen, die große Sprachmodelle (LLMs) und Datenplattformen nutzen, um präzise und maßgeschneiderte Ausgaben zu erzeugen. DataStax bietet seit Juli 2023 Vektorfähigkeiten in AstraDB an; jedoch mussten Nutzer zuvor die Cassandra Query Language (CQL) für Datenaufrufe verwenden. Das neu eingeführte Daten-API ändert diese Dynamik und ermöglicht es Entwicklern, mit Python und JavaScript auf die Datenbank zuzugreifen. Dies verändert den Wettbewerbsumfeld und bringt DataStax näher an speziell entwickelte Vektordatenbanken wie Pinecone, die kürzlich serverlose Funktionen eingeführt haben.
„Es gab einen Kampf zwischen nativen Vektordatenbanken, die nur Vektorabfragen unterstützen, und hybriden Datenbanken, die sich auf Abfrage-Modelle spezialisiert haben“, erklärte Ed Anuff, Chief Product Officer bei DataStax. „Unser Ziel war es, diese Lücke zu schließen, und genau das erreicht das Daten-API.“
Entwicklung von RAG-Anwendungen transformieren
Obwohl das neue API keine neuen Vektorfähigkeiten in AstraDB einführt, optimiert es den Entwicklungsprozess. Anuff bemerkte, dass seit der Einführung der Vektorfähigkeiten etwa die Hälfte der neuen AstraDB-Nutzer auf generative KI-Anwendungen fokussiert ist. Die Herausforderung bestand darin, dass diese Entwickler hauptsächlich auf Python und JavaScript angewiesen waren, die zuvor nicht direkt zur Datenabfrage von AstraDB unterstützt wurden.
Vor der Einführung des APIs erforderte die Entwicklung von KI-Anwendungen umfangreiche Kenntnisse in CQL, welche komplexes Datenmodellieren beinhalteten und die einfache Entwicklung von RAG-Anwendungen erschwerten. Die Abfragen waren zudem weniger optimiert für die Abfrage von Vektordaten.
Das neue Daten-API löst diese Probleme, indem es die Vektorisierung automatisch verwaltet, eine benutzerfreundliche Schnittstelle in Python und JavaScript bietet und die Leistung durch effiziente Speicherung und Indizierung von Vektordaten auf Datenbankebene erhöht. Dies reduziert die Lernkurve und steigert die Leistung im Vergleich zur Nutzung bestehender Cassandra-APIs.
Datenbankinteraktion modernisieren
Traditionelle Datenbank-APIs übersetzen oft Programmiersprachen wie Python oder JavaScript in die Abfragesprache einer Datenbank, ähnlich wie bei älteren Methoden der Objekt-relationalen Abbildung (ORM). Das DataStax-Daten-API hebt sich durch die einzigartige Architektur von Cassandra ab, die tiefere Verbindungen innerhalb der Datenbank ermöglicht und zu einer verbesserten Abfrageleistung führt.
„Das Daten-API bietet Entwicklern ein einfaches, JSON-basiertes Datenformat. Alles, was in JSON ausgedrückt werden kann, kann an die Datenbank gesendet und von ihr abgerufen werden“, erklärte Anuff. „Wir speichern dies effizient in Cassandra und gewährleisten eine optimale Leistung.“
Vektorsuche mit JVector verbessern
Ein zentrales Element der Fortschritte von DataStax in Vektordatenbanken ist die JVector-Suchmaschine, ein Open-Source-Tool, das in AstraDB integriert ist. Anuff hob hervor, dass JVector DiskANN verwendet, eine diskoptimierte Version des Approximate Nearest Neighbor (ANN)-Suchalgorithmus. Diese Strategie verbessert die Leistungsfähigkeit der Abfrage, insbesondere im großen Maßstab.
DataStax behauptet, dass die JVector-Engine es AstraDB ermöglicht, eine überlegene Relevanz und Rückrufrate im Vergleich zu anderen Vektordatenbanken zu liefern. Ein Großteil der laufenden Vektor-Entwicklung bei DataStax, einschließlich JVector und dem neuen Daten-API, wird der Cassandra-Community und den AstraDB-Kunden als Open Source zur Verfügung gestellt.
„Wir setzen uns stark dafür ein, Ressourcen für Open-Source-Ökosysteme bereitzustellen“, erklärte Anuff. „Unser Ziel ist es, sicherzustellen, dass Entwickler den einfachsten Weg bei der Auswahl eines Cloud-Dienstes wählen können.“