Il existe des données massives, puis il y a des données vraiment massives, avec des trillions de lignes. Ocient, basé à Chicago, se positionne à l'avant-garde de ce domaine avec sa technologie de data warehouse hyperscale de pointe.
Aujourd'hui, Ocient a dévoilé de nouvelles capacités qui améliorent sa plateforme de données hyperscale, notamment pour l'analyse géospatiale et l'apprentissage automatique (AA) ainsi que l'intelligence artificielle (IA). La nouvelle fonctionnalité OcientGeo comprend une bibliothèque complète de fonctions géospatiales et un index spatial optimisé à l'échelle mondiale. Cela permet aux entreprises d'ingérer et d'analyser efficacement d'énormes quantités de données géospatiales historiques et en temps réel, générant des insights exploitables. Les outils d'AA intégrés accélèrent encore les initiatives d'IA géospatiale.
Ocient optimise le stockage et le traitement pour répondre aux exigences des données hyperscale sans dépendre des GPU. "Notre attention se concentre sur les charges de travail hyperscale. Dans une requête Ocient moyenne—qu'il s'agisse de SQL, d'apprentissage machine ou d'analyse géospatiale—nous traitons généralement environ un trillion d'éléments", a déclaré le PDG d'Ocient, Chris Gladwin.
Analyse de données hyperscale : flux plutôt que GPU
Alors que de nombreuses organisations optimisent les performances avec des GPU, Ocient adopte une stratégie différente. "La clé de notre succès réside dans un niveau extraordinaire de parallélisation", a expliqué Gladwin. "Il n'est pas rare d'avoir plus d'un million de tâches parallèles en cours à chaque niveau de la pile."
Pour atteindre cette parallélisation étendue dans son data warehouse, Ocient met l'accent sur le flux. Gladwin a noté que dans les algorithmes d'apprentissage machine pour le clustering, la régression et la classification, les limitations proviennent souvent non pas des opérations de calcul du CPU, mais plutôt de la densité de calcul—en particulier, du besoin d'une plus grande puissance de traitement par téraoctet de données.
Le principal défi consiste à garantir un débit suffisant à travers la pile informatique, y compris le stockage et la mémoire. C'est au cœur de l'innovation technique d'Ocient, car l'entreprise se spécialise dans l'optimisation de la mémoire et des systèmes de stockage SSD rapides. "Nos ingénieurs apprécient les GPU—ils sont impressionnants—mais nous n'avons tout simplement pas rencontré de nécessité pour eux", a remarqué Gladwin.
Apprentissage automatique à hyperscale avec OcientML
Le data warehouse d'Ocient s'est d'abord concentré sur les requêtes de données SQL, et les mêmes avantages architecturaux permettant une analyse rapide sur de vastes ensembles de données soutiennent maintenant OcientML et OcientGeo.
Gladwin a souligné qu'OcientML permet à ses clients d'exécuter l'apprentissage automatique sur des ensembles de données contenant des milliards à des trillions de points de données, offrant des métriques de rapport qualité-prix supérieures à celles des alternatives. Des fonctionnalités telles que la gestion des charges de travail garantissent un accès équitable aux ressources à travers diverses requêtes hyperscale et analyses. De plus, OcientML est intégré au data warehouse hyperscale d'Ocient, éliminant le besoin d'extraire, de transformer et de charger les données sur une plateforme distincte.
Parmi les avantages d'OcientML figurent une précision accrue des modèles grâce à une interaction complète avec les données historiques et actuelles, une itération accélérée en éliminant les mouvements de données inutiles, et des opérations rationalisées en gérant SQL et AA au sein d'un système unifié.
OcientGeo adopte une approche similaire, intégrée au data warehouse hyperscale d'Ocient, exploitant l'énorme parallélisation de la plateforme. Avec OcientGeo, les utilisateurs peuvent effectuer des requêtes et des analyses géospatiales sur de vastes ensembles de données directement dans l'environnement Ocient, évitant ainsi la nécessité d'extractions de données à grande échelle. Cette capacité permet d'exécuter des requêtes géospatiales impliquant des trillions de points de données en quelques secondes.
"Nous commençons à peine à explorer ces nouvelles applications qui peuvent uniquement être activées en multipliant par dix ou plus le rapport prix-performance des analyses hyperscale", a conclu Gladwin.