Voltron Data Mejora sus Capacidades de IA con el Motor de Consultas Distribuido Theseus

El robot ficticio Voltron, de la serie animada del mismo nombre, representa el poder de combinar varios leones robot en una sola entidad formidable, capaz de lograr grandes hazañas.

Voltron Data, que se lanzó en 2022 con una financiación de 110 millones de dólares, tiene como objetivo aprovechar diversas tecnologías de código abierto, incluyendo Apache Arrow, Apache Parquet e Ibis, para mejorar el acceso a los datos. Hoy, Voltron Data ha anunciado el motor de consultas distribuidas Theseus, diseñado para acelerar significativamente las consultas de datos en cargas de trabajo exigentes de IA.

Theseus está diseñado para optimizar canalizaciones de datos y consultas a gran escala aprovechando GPUs y otros aceleradores de hardware. “Construimos Theseus siguiendo los mismos principios que guiaron nuestras iniciativas de código abierto: bibliotecas modulares, componibles y aceleradas que mejoran los sistemas de datos,” afirmó Josh Patterson, cofundador y CEO de Voltron Data, en una entrevista exclusiva. “Este es nuestro próximo paso para convertirnos en líderes en el diseño y la construcción de sistemas avanzados de datos.”

Theseus: Diseñado para Volúmenes Masivos de Datos

Theseus está adaptado para ejecutar consultas distribuidas en grandes conjuntos de datos de 10 terabytes o más, dirigido a organizaciones con necesidades de procesamiento de datos de petabytes, incluyendo empresas Fortune 500, agencias gubernamentales, fondos de inversión, telecomunicaciones y empresas de entretenimiento mediático.

Uno de los objetivos principales de Theseus es acelerar los procesos de ETL (extraer, transformar, cargar), la ingeniería de características y otras tareas de preparación de datos, permitiendo una integración más rápida de datos para sistemas de IA y analítica downstream. A medida que los sistemas de IA evolucionan, aumenta la demanda de transformación de datos en tiempo real. “Nuestros usuarios han compartido que el mayor problema que enfrentan es no alimentar sus sistemas de IA lo suficientemente rápido,” afirmó Patterson. “Esta necesidad inspiró el desarrollo de Theseus.”

Las consultas de datos tradicionales a menudo enfrentan limitaciones debido al rendimiento de la CPU. Theseus trasciende las tecnologías de CPU estándar al utilizar computación acelerada, incluyendo GPUs. Patterson describió a Theseus como “nativo de acelerador,” optimizado para aprovechar al máximo tecnologías como las GPUs de Nvidia y soluciones avanzadas de red y almacenamiento. Este enfoque nativo de acelerador permite a Theseus ejecutar consultas más rápidamente que los motores convencionales basados en CPU, como Apache Spark, a gran escala.

Aplicaciones de IA con Theseus

Una aplicación significativa de Theseus es la optimización de hiperparámetros, donde las organizaciones pueden procesar eficientemente numerosos parámetros para la ingeniería de características, permitiéndoles refinar los insumos del modelo de manera más efectiva. “Cuanto más rápido puedas ejecutar los procesos de ingeniería de características y ETL, más fresca será tu data y mejores serán tus modelos,” observó Patterson.

Interoperabilidad en Su Núcleo

Theseus adopta estándares abiertos como Apache Arrow, Apache Parquet e Ibis para asegurar la interoperabilidad. “No es un sistema propietario y aislado; cualquier lago de datos compatible con Apache Arrow puede ser consultado utilizando Theseus,” explicó Patterson. La arquitectura permite integrar datos sin problemas con diversas herramientas y marcos populares de aprendizaje automático, incluyendo PyTorch y TensorFlow. “Hemos creado un método sencillo para mover datos dentro y fuera de nuestros sistemas,” agregó Patterson.

Theseus es fundamentalmente un motor de consultas distribuidas y no incluye su propia interfaz de usuario. En su lugar, utiliza consultas SQL e Ibis, lo que facilita su integración con sistemas y flujos de trabajo front-end existentes.

Alianzas e Iniciativas Futuras

Voltron Data está ingresando al mercado con Theseus a través de asociaciones estratégicas, comenzando con Hewlett Packard Enterprise (HPE). Esta colaboración integrará Theseus en la plataforma de nube híbrida HPE GreenLake, que proporciona la infraestructura necesaria mientras permite a los clientes unificar consultas a través de diferentes motores utilizando Ibis.

Mirando hacia el futuro, Patterson indicó que Voltron Data busca expandir las asociaciones de Theseus y mejorar su funcionalidad, incluyendo funciones definidas por el usuario. El enfoque para 2024 será agilizar la integración en canalizaciones de ciencia de datos integrales. “Nuestro objetivo es hacer que sea más rápido y fácil conectarse con varios componentes de la canalización de ciencia de datos, empoderando a los usuarios en el proceso,” concluyó Patterson.

Most people like

Find AI tools in YBX