Вымышленный робот Волтрон из анимационного сериала с тем же названием символизирует силу объединения нескольких роботов-львов в единый грозный организм, способный добиваться великих результатов.
Компания Voltron Data, запущенная в 2022 году с финансированием в 110 миллионов долларов, нацелена на использование различных технологий с открытым исходным кодом, таких как Apache Arrow, Apache Parquet и Ibis, для улучшения доступа к данным. Сегодня Voltron Data объявила о запуске распределённого движка запросов Theseus, который создан для значительного ускорения обработки запросов данных для сложных AI-нагрузок.
Theseus оптимизирован для больших объёмов данных и эффективного выполнения распределённых запросов на наборах данных размером 10 терабайт и более, что делает его идеальным для организаций с потребностями в обработке данных на уровне петабайтов, включая компании Fortune 500, государственные агентства, хедж-фонды, телекоммуникационные и медиа-компании. Основная задача Theseus – ускорить процессы ETL (извлечение, преобразование, загрузка), инженерии признаков и другие подготовительные задачи, что позволит быстрее интегрировать данные для AI и аналитических систем. С развитием AI-систем возрастает потребность в преобразовании данных в реальном времени.
"Наши пользователи сообщают, что главная проблема, с которой они сталкиваются, – это недостаточная скорость подачи данных в свои AI-системы," — заявил Джош Паттерсон, соучредитель и CEO Voltron Data. "Эта потребность вдохновила нас на разработку Theseus."
Традиционные запросы к данным часто сталкиваются с ограничениями производительности CPU. Theseus выходит за рамки стандартных технологий CPU, используя ускоренные вычисления, включая GPU. Паттерсон описал Theseus как "нативный для ускорителей", оптимизированный для полного использования технологий, таких как GPU Nvidia и современные решения для сетей и хранения данных.
Этот подход позволяет Theseus выполнять запросы быстрее, чем традиционные движки на базе CPU, такие как Apache Spark, на больших объёмах данных.
Одним из значимых приложений Theseus является оптимизация гиперпараметров, где организации могут эффективно обрабатывать множество параметров для инженерии признаков, позволяя им более эффективно уточнять входные данные моделей. "Чем быстрее вы сможете выполнять процессы инженерии признаков и ETL, тем свежие будут ваши данные и лучше ваши модели," — отметил Паттерсон.
В основе Theseus лежат открытые стандарты, такие как Apache Arrow, Apache Parquet и Ibis, что обеспечивает совместимость. "Это не закрытая система; любой совместимый с Apache Arrow дата-озеро может быть запрошен с помощью Theseus," — объяснил Паттерсон. Архитектура позволяет бесшовную интеграцию данных с различными популярными инструментами и фреймворками машинного обучения, такими как PyTorch и TensorFlow. "Мы создали простой способ перемещения данных в наши системы и из них," — добавил Паттерсон.
Theseus по сути является распределённым движком запросов и не включает в себя собственный интерфейс для пользователей. Вместо этого используется SQL-запросы и Ibis, что позволяет легко интегрировать его с существующими фронтенд-системами и рабочими процессами.
Voltron Data выходит на рынок с Theseus через стратегические партнерства, начиная с Hewlett Packard Enterprise (HPE). Это сотрудничество интегрирует Theseus в гибридную облачную платформу HPE GreenLake, обеспечивающую необходимую инфраструктуру и позволяющую клиентам объединить запросы через различные движки с использованием Ibis.
Взглянув в будущее, Паттерсон указал, что Voltron Data планирует расширять партнерства для Theseus и улучшать его функциональность, включая пользовательские функции. Основное внимание в 2024 году будет уделено упрощению интеграции в комплексные конвейеры науки о данных. "Наша цель — сделать связь с различными компонентами конвейера науки о данных быстрее и проще, что даст пользователям возможность действовать," — заключил Паттерсон.