Le robot fictif Voltron, issu de la série animée éponyme, symbolise la puissance de la combinaison de plusieurs lions robotiques en une entité redoutable capable d'accomplir de grands exploits.
Voltron Data, lancé en 2022 avec un financement de 110 millions de dollars, vise à tirer parti de diverses technologies open-source telles qu'Apache Arrow, Apache Parquet et Ibis pour améliorer l'accès aux données. Aujourd'hui, Voltron Data a annoncé le moteur de requêtes distribué Theseus, conçu pour accélérer significativement les requêtes de données destinées à des charges de travail d'IA exigeantes.
Theseus est conçu pour optimiser les pipelines de données de grande envergure et les requêtes en s'appuyant sur des GPU et d'autres accélérateurs matériels.
« Nous avons construit Theseus selon les mêmes principes qui ont guidé nos initiatives open-source : des bibliothèques modulaires, composables et accélérées qui améliorent les systèmes de données », a déclaré Josh Patterson, cofondateur et PDG de Voltron Data, dans une interview exclusive. « C'est notre prochaine étape pour devenir un leader dans la conception et la construction de systèmes de données avancés. »
Theseus : Conçu pour des volumes massifs de données
Theseus est spécifiquement destiné à exécuter des requêtes distribuées sur de grands ensembles de données de 10 téraoctets ou plus, visant des organisations ayant des besoins de traitement de données à l'échelle pétaoctets, y compris des entreprises du Fortune 500, des agences gouvernementales, des fonds spéculatifs, des entreprises de télécommunications et de divertissement médiatique.
Un objectif majeur de Theseus est d'accélérer les processus ETL (extraction, transformation, chargement), l'ingénierie des caractéristiques et d'autres tâches de préparation des données, permettant une intégration plus rapide des données pour les systèmes d'IA et d'analytique en aval. À mesure que les systèmes d'IA évoluent, la demande pour une transformation des données en temps réel augmente.
« Nos utilisateurs ont partagé que le principal problème qu'ils rencontrent est de ne pas alimenter leurs systèmes d'IA assez rapidement », a déclaré Patterson. « Ce besoin a inspiré le développement de Theseus. »
Les requêtes de données traditionnelles rencontrent souvent des limitations dues à la performance des CPU. Theseus transcende les technologies CPU standards en utilisant l'informatique accélérée, y compris les GPU. Patterson a décrit Theseus comme « natif d'accélérateur », optimisé pour tirer pleinement parti des technologies telles que les GPU Nvidia et les solutions avancées de mise en réseau et de stockage.
Cette approche native d'accélérateur permet à Theseus d'exécuter des requêtes plus rapidement que les moteurs basés sur CPU classiques comme Apache Spark à grande échelle.
Applications d'IA avec Theseus
Une application significative pour Theseus est l'optimisation des hyperparamètres, permettant aux organisations de traiter efficacement de nombreux paramètres pour l'ingénierie des caractéristiques, leur permettant de mieux affiner les entrées des modèles.
« Plus vous pouvez exécuter rapidement les processus d'ingénierie des caractéristiques et d'ETL, plus vos données seront fraîches et meilleurs seront vos modèles », a noté Patterson.
Interopérabilité au cœur
Theseus adopte des normes ouvertes telles qu'Apache Arrow, Apache Parquet et Ibis pour garantir l'interopérabilité.
« Ce n'est pas un système propriétaire et cloisonné ; tout lac de données compatible avec Apache Arrow peut être interrogé à l'aide de Theseus », a expliqué Patterson. L'architecture permet une intégration fluide des données avec divers outils et frameworks populaires d'apprentissage automatique, incluant PyTorch et TensorFlow.
« Nous avons créé une méthode simple pour déplacer les données dans et hors de nos systèmes », a ajouté Patterson.
Theseus est fondamentalement un moteur de requêtes distribué et ne possède pas sa propre interface utilisateur. Au lieu de cela, il utilise des requêtes SQL et Ibis, permettant une intégration facile avec les systèmes et flux de travaux frontaux existants.
Partenariats et initiatives futures
Voltron Data pénètre le marché avec Theseus grâce à des partenariats stratégiques, en commençant par Hewlett Packard Enterprise (HPE).
Cette collaboration intégrera Theseus dans la plateforme cloud hybride HPE GreenLake, qui fournit l'infrastructure nécessaire tout en permettant aux clients d'unifier les requêtes entre différents moteurs en utilisant Ibis.
En regardant vers l'avenir, Patterson a indiqué que Voltron Data vise à élargir les partenariats de Theseus et à améliorer sa fonctionnalité, y compris les fonctions définies par l'utilisateur. L'objectif pour 2024 sera de rationaliser l'intégration dans des pipelines de science des données complets.
« Notre but est de faciliter la connexion avec divers composants du pipeline de science des données, autonomisant ainsi les utilisateurs », a conclu Patterson.