Существуют большие данные, а затем существенно большие данные — например, триллионы строк. Компания Ocient из Чикаго находится на переднем крае этой сферы благодаря своей передовой технологии гипермасштабируемого хранилища данных.
Сегодня Ocient представила новые возможности, улучшающие ее платформу гипермасштабируемых данных, в частности для геопространственной аналитики, машинного обучения (ML) и искусственного интеллекта (AI). Новый функционал OcientGeo включает обширную библиотеку геопространственных функций и глобально оптимизированный пространственный индекс. Это позволяет компаниям эффективно обрабатывать и анализировать огромные объемы исторических и текущих геопространственных данных, генерируя практические инсайты. Интегрированные инструменты ML дополнительно ускоряют инициативы в области геопространственного AI.
Ocient оптимизирует хранение и обработку данных, отвечая требованиям гипермасштабируемых данных без опоры на графические процессоры (GPU). "Наше внимание сосредоточено на гипермасштабируемых нагрузках. В среднем, в запросе Ocient — будь то SQL, машинное обучение или геопространственные данные — мы обычно имеем дело с около триллиона элементов", - заявил генеральный директор Ocient Крис Гладвин.
Гипермасштабируемая аналитика данных: работа без GPU
В то время как многие организации увеличивают производительность с помощью GPU, Ocient использует другую стратегию. "Ключом к нашему успеху является исключительный уровень параллелизации," - объяснил Гладвин. "Не редкость видеть более миллиона параллельных задач на каждом уровне стека."
Для достижения этой масштабной параллелизации в своем хранилище данных Ocient делает акцент на потоке. Гладвин отметил, что в алгоритмах машинного обучения для кластеризации, регрессии и классификации ограничения часто возникают не из-за вычислительных операций ЦП, а из-за плотности вычислений — конкретно, необходимости в бόльшей вычислительной мощности на террабайт данных.
Главная задача заключается в обеспечении достаточной пропускной способности по всему вычислительному стеку, включая хранение и память. Это в сердце технической инновации Ocient, так как компания специализируется на оптимизации памяти и быстром хранении на твердотельных накопителях (SSD). "Наши инженеры ценят GPU — они впечатляющие, но мы просто не столкнулись с необходимостью в них," - заметил Гладвин.
Машинное обучение в гипермасштабе с OcientML
Хранилище данных Ocient изначально сосредоточилось на SQL-запросах к данным, и те же архитектурные преимущества, обеспечивающие быструю аналитику на больших наборах данных, теперь лежат в основе OcientML и OcientGeo.
Гладвин подчеркнул, что OcientML позволяет клиентам выполнять машинное обучение на наборах данных, содержащих миллиарды и триллионы точек, предлагая превосходные метрики цена-качество по сравнению с альтернативами. Функции управления нагрузкой обеспечивают равный доступ к ресурсам для различных гипермасштабируемых запросов и анализов. Более того, OcientML интегрирован в гипермасштабируемое хранилище данных Ocient, что исключает необходимость извлекать, преобразовывать и загружать данные на отдельную платформу.
Преимущества OcientML включают улучшение точности моделей за счет полной взаимодействия с историческими и актуальными данными, ускорение итераций за счет исключения ненужного перемещения данных и упрощение операций за счет управления SQL и ML в единой системе.
OcientGeo следует аналогичному подходу, будучи неотъемлемой частью гипермасштабируемого хранилища данных Ocient, используя обширную параллелизацию платформы. С помощью OcientGeo пользователи могут выполнять геопространственные запросы и анализы на огромных наборах данных прямо в среде Ocient, без необходимости в масштабной извлечении данных. Эта возможность позволяет выполнять геопространственные запросы с триллионами точек за считанные секунды.
"Мы только начинаем исследовать новые приложения, которые могут быть активированы благодаря увеличению производительности и цены гипермасштабируемой аналитики в десять раз и более," - завершил Гладвин.