O robô fictício Voltron, da série animada de mesmo nome, simboliza o poder de combinar múltiplos leões robôs em uma única entidade formidável capaz de realizar grandes feitos.
A Voltron Data, que foi lançada em 2022 com um financiamento de US$ 110 milhões, tem como objetivo aproveitar diversas tecnologias de código aberto, incluindo Apache Arrow, Apache Parquet e Ibis, para melhorar o acesso a dados. Hoje, a Voltron Data anunciou o mecanismo de consulta distribuída Theseus, projetado para acelerar significativamente as consultas de dados para cargas de trabalho exigentes em inteligência artificial.
Theseus é concebido para otimizar pipelines e consultas de dados em larga escala, utilizando GPUs e outros aceleradores de hardware. “Construímos o Theseus com os mesmos princípios que guiaram nossas iniciativas de código aberto—bibliotecas modulares, compostas e aceleradas que melhoram os sistemas de dados,” afirmou Josh Patterson, cofundador e CEO da Voltron Data, em uma entrevista exclusiva. “Este é o nosso próximo passo para nos tornarmos líderes no design e construção de sistemas de dados avançados.”
Theseus: Construído para Volumes Massivos de Dados
Theseus é adaptado para executar consultas distribuídas em grandes conjuntos de dados de 10 terabytes ou mais, atendendo organizações com necessidades de processamento de dados em petabytes, incluindo empresas da Fortune 500, agências governamentais, fundos de hedge, telecomunicações e empresas de entretenimento.
Um dos principais objetivos do Theseus é acelerar processos de ETL (extração, transformação e carga), engenharia de recursos e outras tarefas de preparação de dados, permitindo uma integração mais rápida de dados para sistemas de IA e análise. À medida que os sistemas de IA evoluem, a demanda por transformação de dados em tempo real cresce. “Nossos usuários relataram que o maior problema que enfrentam é não alimentar seus sistemas de IA rapidamente o suficiente,” disse Patterson. “Essa necessidade inspirou o desenvolvimento do Theseus.”
Consultas tradicionais muitas vezes enfrentam limitações devido ao desempenho do CPU, mas Theseus transcende as tecnologias de CPU padrão ao utilizar computação acelerada, incluindo GPUs. Patterson descreveu o Theseus como “nativo de acelerador”, otimizado para aproveitar ao máximo tecnologias como GPUs Nvidia e soluções avançadas de rede e armazenamento. Essa abordagem nativa de acelerador permite que Theseus execute consultas mais rapidamente do que motores convencionais baseados em CPU, como o Apache Spark, em escala.
Aplicações de IA com Theseus
Uma aplicação significativa do Theseus é a otimização de hiperparâmetros, onde organizações podem processar de forma eficiente diversos parâmetros para engenharia de recursos, permitindo refinar as entradas do modelo de maneira mais eficaz. “Quanto mais rápido você puder executar processos de engenharia de recursos e ETL, mais frescos seus dados estarão e melhores serão seus modelos,” destacou Patterson.
Interoperabilidade como Essência
Theseus adota padrões abertos como Apache Arrow, Apache Parquet e Ibis para garantir interoperabilidade. “Não é um sistema proprietário e isolado; qualquer lago de dados compatível com Apache Arrow pode ser consultado usando o Theseus,” explicou Patterson. A arquitetura permite que os dados sejam integrados de forma fluida com diversas ferramentas e frameworks populares de aprendizado de máquina, incluindo PyTorch e TensorFlow. “Criamos um método simples para mover dados para dentro e para fora de nossos sistemas,” acrescentou Patterson.
Theseus é fundamentalmente um mecanismo de consulta distribuída e não inclui sua própria interface de usuário. Em vez disso, utiliza consultas SQL e Ibis, permitindo fácil integração com sistemas e fluxos de trabalho front-end existentes.
Parcerias e Iniciativas Futuras
A Voltron Data está entrando no mercado com o Theseus por meio de parcerias estratégicas, começando com a Hewlett Packard Enterprise (HPE). Esta colaboração integrará o Theseus à plataforma de nuvem híbrida HPE GreenLake, que fornece a infraestrutura necessária enquanto permite aos clientes unificar consultas entre diferentes motores usando Ibis.
Olhando para o futuro, Patterson indicou que a Voltron Data pretende expandir as parcerias do Theseus e aprimorar sua funcionalidade, incluindo funções definidas pelo usuário. O foco de 2024 será na otimização da integração em pipelines abrangentes de ciência de dados. “Nosso objetivo é facilitar e acelerar a conexão com diversos componentes do pipeline de ciência de dados, capacitando os usuários nesse processo,” concluí Patterson.