Existen grandes datos, y luego están los datos realmente grandes: imagina billones de filas de datos. Ocient, con sede en Chicago, se posiciona a la vanguardia de este ámbito con su innovadora tecnología de almacén de datos hiperescalable.
Hoy, Ocient presentó nuevas capacidades que mejoran su plataforma de datos hiperescalable, específicamente para análisis geoespaciales y aprendizaje automático (ML) e inteligencia artificial (AI). La nueva función OcientGeo incluye una biblioteca integral de funciones geoespaciales y un índice espacial optimizado globalmente. Esto permite a las empresas ingerir y analizar de manera eficiente grandes volúmenes de datos geoespaciales históricos y en tiempo real, generando información valiosa. Herramientas de ML integradas aceleran aún más las iniciativas de AI geoespacial.
Ocient aprovecha el almacenamiento y procesamiento optimizados para satisfacer las demandas de datos hiperescalables sin depender de GPUs.
“Nos enfocamos en cargas de trabajo hiperescalables. En una consulta promedio de Ocient —ya sea SQL, aprendizaje automático o geoespacial— manejamos típicamente alrededor de un billón de elementos,” declaró Chris Gladwin, CEO de Ocient.
Análisis de Datos Hiperescala: Flujo en lugar de GPUs
Mientras muchas organizaciones optimizan el rendimiento con GPUs, Ocient adopta una estrategia diferente.
“El secreto de nuestro éxito es un nivel extraordinario de paralelización,” explicó Gladwin. “No es raro tener más de un millón de tareas paralelas en cada capa de la arquitectura.”
Para lograr esta extensa paralelización dentro de su almacén de datos, Ocient enfatiza el flujo. Gladwin indicó que en los algoritmos de aprendizaje automático para clustering, regresión y clasificación, las limitaciones a menudo provienen no de las operaciones computacionales de la CPU, sino de la densidad de cálculo, específicamente de la necesidad de mayor potencia de procesamiento por terabyte de datos.
El principal desafío es garantizar un rendimiento adecuado a lo largo de la pila informática, incluyendo almacenamiento y memoria. Este es el núcleo de la innovación técnica de Ocient, ya que la compañía se especializa en optimizar la memoria y los sistemas de almacenamiento rápido en estado sólido (SSD).
“Nuestros ingenieros aprecian las GPUs—son impresionantes—pero simplemente no hemos encontrado una necesidad de ellas,” comentó Gladwin.
Aprendizaje Automático a Hiperescala con OcientML
El almacén de datos de Ocient se centró inicialmente en las consultas de datos SQL, y las mismas ventajas arquitectónicas que permiten un análisis ágil en grandes conjuntos de datos ahora sustentan OcientML y OcientGeo.
Gladwin enfatizó que OcientML permite a los clientes ejecutar aprendizaje automático en conjuntos de datos que contienen miles de millones a billones de puntos de datos, ofreciendo métricas de precio-rendimiento superiores en comparación con otras alternativas. Funciones como la gestión de cargas de trabajo aseguran un acceso equitativo a los recursos a través de diversas consultas y análisis hiperescalables. Además, OcientML está integrado en el Almacén de Datos Hiperescala de Ocient, eliminando la necesidad de extraer, transformar y cargar datos en una plataforma separada.
Los beneficios de OcientML incluyen una mayor precisión en los modelos a través de la interacción completa con datos históricos y actuales, iteraciones aceleradas al eliminar movimientos innecesarios de datos y operaciones simplificadas mediante la gestión de SQL y ML dentro de un sistema unificado.
OcientGeo sigue un enfoque similar, siendo integral al Almacén de Datos Hiperescala de Ocient, aprovechando la extensiva paralelización de la plataforma. Con OcientGeo, los usuarios pueden realizar consultas y análisis geoespaciales sobre enormes conjuntos de datos directamente dentro del entorno de Ocient, evitando la necesidad de grandes extracciones de datos. Esta capacidad permite la ejecución de consultas geoespaciales que involucran billones de puntos de datos en segundos.
“Estamos apenas comenzando a explorar estas nuevas aplicaciones que solo pueden ser habilitadas al mejorar diez veces o más el precio y el rendimiento de los análisis hiperescalables,” concluyó Gladwin.