Activeloop lève 11 millions de dollars pour améliorer les solutions de base de données AI
La startup californienne Activeloop a obtenu 11 millions de dollars lors d’un financement de série A, soutenue par des investisseurs tels que Streamlined Ventures, Y Combinator et Samsung Next. Co-fondée par Davit Buniatyan, ancien étudiant de Princeton, l'entreprise se spécialise dans une base de données dédiée conçue pour accélérer le développement de projets d'intelligence artificielle.
Activeloop se distingue sur un marché encombré de plateformes de données en répondant à un défi crucial pour les entreprises : tirer parti des données multimodales non structurées pour entraîner des modèles AI. Leur technologie innovante, "Deep Lake", permet aux équipes de développer des applications AI à des coûts jusqu'à 75 % inférieurs à ceux des solutions concurrentes, tout en augmentant la productivité des ingénieurs jusqu'à cinq fois.
Débloquer le potentiel de l'AI avec Deep Lake
Alors que les entreprises cherchent à exploiter des ensembles de données complexes pour des applications AI variées, les recherches de McKinsey soulignent le potentiel lucratif de l'AI générative, qui pourrait générer entre 2,6 et 4,4 trillions de dollars de profits annuels pour les entreprises à l'échelle mondiale. Cet impact touche divers domaines, comme les interactions client, la création de contenu marketing et la génération de code logiciel à partir de requêtes en langage naturel.
Fonctionnement de Deep Lake d’Activeloop
L’entraînement de modèles AI fondationnelles performants implique souvent de gérer des données non structurées à grande échelle, allant jusqu'à des pétaoctets, comprenant du texte, de l'audio et de la vidéo. Les méthodes traditionnelles obligent les équipes à examiner des silos de données désorganisés, entraînant des efforts d’intégration et de codage répétitifs, augmentant ainsi les coûts des projets.
Activeloop résout cette inefficacité grâce à la standardisation de Deep Lake. Ce système stocke des données complexes, telles que des images et des vidéos, sous forme de représentations mathématiques adaptées à l'apprentissage automatique (tenseurs) et permet une récupération fluide via un langage de requête tensorielle similaire à SQL, une visualisation dans le navigateur ou une intégration avec des frameworks d'apprentissage profond comme PyTorch et TensorFlow.
Avec Deep Lake, les développeurs peuvent filtrer et rechercher efficacement des données multimodales, suivre les versions et diffuser des données pour entraîner des modèles AI adaptés à des applications spécifiques.
Transformer la gestion des données en AI
Buniatyan souligne que Deep Lake combine les avantages d’un lac de données classique tout en convertissant toutes les données au format tenseur requis par les algorithmes d'apprentissage profond. Les tenseurs sont stockés sur des solutions cloud ou locales, comme AWS S3, et diffusés vers des GPU pour un entraînement efficace, éliminant ainsi les méthodes de copie par lot qui entraînaient auparavant une utilisation inappropriée des GPU.
Depuis sa création en 2018, inspirée par les défis rencontrés par Buniatyan au Princeton Neuroscience Lab, Activeloop a développé des fonctionnalités complètes de base de données incluant des éléments open-source et propriétaires. L’aspect open-source comprend des formats de jeux de données, un contrôle de version, et diverses API pour une gestion des données simplifiée. Les fonctionnalités propriétaires, quant à elles, offrent des outils de visualisation avancés et un moteur de streaming robuste.
Bien que le nombre spécifique de clients demeure confidentiel, le projet open-source a été téléchargé plus d'un million de fois, renforçant la position d'Activeloop sur les marchés des entreprises. L'offre entreprise fonctionne sur un modèle de tarification basé sur l'utilisation et est déjà utilisée par des entreprises du Fortune 500 dans des secteurs réglementés tels que la biopharma, les sciences de la vie, la technologie médicale, l'automobile et le secteur juridique.
Par exemple, Bayer Radiology a mis en œuvre Deep Lake pour consolider diverses modalités de données en une seule solution, réduisant considérablement le temps de prétraitement des données tout en introduisant une fonctionnalité de "discussion avec les rayons X" permettant aux data scientists de interroger les scans en utilisant un langage naturel.
Plans futurs de croissance
Activeloop vise à améliorer ses solutions pour entreprises et à attirer de nouveaux clients pour sa base de données AI, en se concentrant sur la simplification de l'organisation et de la récupération de données non structurées complexes. L'entreprise prévoit d'élargir son équipe d'ingénierie, alimentée par le financement récent.
Buniatyan anticipe également le lancement prochain de Deep Lake v4, qui introduira un I/O concurrent plus rapide, un chargeur de données en streaming avancé pour l'entraînement des modèles, et des capacités complètes de traçabilité des données, en plus de l'intégration avec des sources de données externes. Il souligne qu'alors que de nombreux clients évoluent dans cet espace, aucun concurrent direct n’a émergé.
En fin de compte, Activeloop aspire à permettre aux entreprises d'économiser considérablement sur les coûts liés à l'organisation et à la récupération des données internes, permettant ainsi aux ingénieurs de se concentrer sur la productivité plutôt que sur des tâches de codage répétitives.