Der fiktive Voltron-Roboter aus der gleichnamigen Animationsserie symbolisiert die Kraft, mehrere Roboterlöwen zu einer einzigen, beeindruckenden Einheit zu vereinen, die großartige Leistungen erbringen kann.
Voltron Data, das 2022 mit 110 Millionen Dollar finanziert wurde, hat sich zum Ziel gesetzt, unterschiedliche Open-Source-Technologien wie Apache Arrow, Apache Parquet und Ibis zu nutzen, um den Datenzugang zu verbessern. Heute hat Voltron Data die Theseus-Verteilte-Abfrage-Engine vorgestellt, die darauf ausgelegt ist, Datenabfragen für anspruchsvolle KI-Workloads erheblich zu beschleunigen.
Theseus wurde entwickelt, um große Datenpipelines und Abfragen durch den Einsatz von GPUs und anderen Hardwarebeschleunigern zu optimieren. „Wir haben Theseus nach denselben Prinzipien entwickelt, die unsere Open-Source-Initiativen geleitet haben – modulare, zusammensetzbare und beschleunigte Bibliotheken, die Daten Systeme verbessern“, sagte Josh Patterson, Mitgründer und CEO von Voltron Data, in einem exklusiven Interview. „Dies ist unser nächster Schritt, um führend in der Gestaltung und dem Bau fortschrittlicher Datensysteme zu werden.“
Theseus: Für massive Datenvolumen optimiert
Theseus ist auf die Ausführung verteilter Abfragen in großen Datensätze von 10 Terabyte oder mehr ausgerichtet und richtet sich an Organisationen mit petabyte-großen Datenverarbeitungsanforderungen, einschließlich Fortune-500-Unternehmen, Regierungsbehörden, Hedgefonds, Telekommunikations- und Medienunternehmen. Ein Hauptziel von Theseus ist es, ETL-Prozesse (Extrahieren, Transformieren, Laden), Merkmalsengineering und andere Datenvorbereitungsaufgaben zu beschleunigen, um eine schnellere Datenintegration für nachgelagerte KI- und Analysesysteme zu ermöglichen. Mit der Evolution von KI-Systemen steigt der Bedarf an Echtzeit-Datenumwandlungen.
„Unsere Nutzer haben uns mitgeteilt, dass das größte Problem ist, ihre KI-Systeme nicht schnell genug zu versorgen“, bemerkte Patterson. „Dieser Bedarf inspirierte die Entwicklung von Theseus.“ Traditionelle Datenabfragen stoßen oft auf Einschränkungen aufgrund der CPU-Leistung. Theseus überwindet Standard-CPU-Technologien durch den Einsatz von beschleunigtem Computing, einschließlich GPUs. Patterson beschrieb Theseus als „beschleuniger-nativ“, optimiert, um Technologien wie Nvidia GPUs sowie fortschrittliche Netzwerk- und Speicherlösungen voll auszuschöpfen.
Dieser beschleuniger-native Ansatz ermöglicht es Theseus, Abfragen schneller auszuführen als herkömmliche, CPU-basierte Engines wie Apache Spark im großen Maßstab.
KI-Anwendungen mit Theseus
Eine bedeutende Anwendung von Theseus ist die Hyperparameter-Optimierung, bei der Organisationen zahlreiche Parameter für das Merkmalsengineering effizient verarbeiten können, was es ihnen ermöglicht, die Modelleingaben effektiver zu verfeinern. „Je schneller Sie Merkmalsengineering und ETL-Prozesse durchführen können, desto frischer sind Ihre Daten und desto besser werden Ihre Modelle sein“, betonte Patterson.
Interoperabilität im Fokus
Theseus befürwortet offene Standards wie Apache Arrow, Apache Parquet und Ibis, um die Interoperabilität sicherzustellen. „Es handelt sich nicht um ein proprietäres, isoliertes System; jeder Apache Arrow-kompatible Datenteich kann mit Theseus abgefragt werden“, erklärte Patterson. Die Architektur ermöglicht eine nahtlose Integration der Daten mit verschiedenen beliebten Machine-Learning-Tools und -Frameworks, einschließlich PyTorch und TensorFlow. „Wir haben eine einfache Methode geschaffen, um Daten in unsere Systeme ein- und auszubringen“, fügte Patterson hinzu.
Theseus ist grundlegende eine verteilte Abfrage-Engine und besitzt keine eigene Benutzeroberfläche. Stattdessen verwendet sie SQL-Abfragen und Ibis, um eine einfache Integration mit bestehenden Front-End-Systemen und Workflows zu ermöglichen.
Partnerschaften und zukünftige Initiativen
Voltron Data betritt den Markt mit Theseus durch strategische Partnerschaften, beginnend mit Hewlett Packard Enterprise (HPE). Diese Zusammenarbeit wird Theseus in die HPE GreenLake Hybrid-Cloud-Plattform integrieren, die die erforderliche Infrastruktur bereitstellt und es den Kunden ermöglicht, Abfragen über verschiedene Engines hinweg zu vereinheitlichen.
Mit Blick auf die Zukunft deutete Patterson an, dass Voltron Data plant, die Theseus-Partnerschaften auszubauen und deren Funktionalität zu erweitern, einschließlich benutzerdefinierter Funktionen. Der Fokus für 2024 wird darauf liegen, die Integration in umfassende Datenwissenschafts-Pipelines zu optimieren. „Unser Ziel ist es, den Nutzern zu ermöglichen, schneller und einfacher mit verschiedenen Komponenten der Datenwissenschaftspipeline zu interagieren“, schloss Patterson.