Databricks Adquire Lilac para Melhorar a Qualidade dos Dados em Aplicações de IA Generativa

Hoje, a Databricks anunciou a aquisição da Lilac, uma startup de pesquisa aplicada com sede em Boston, especializada em compreensão e manipulação de dados. Os termos financeiros da aquisição não foram divulgados.

Sob a liderança de Ali Ghodsi, a Databricks pretende integrar a equipe e a tecnologia da Lilac em sua plataforma de inteligência de dados, anteriormente conhecida como data lakehouse. Esta integração proporcionará aos usuários de diversas áreas uma abordagem simplificada para aprimorar a qualidade dos conjuntos de dados na criação de aplicações de modelos de linguagem de grande escala (LLM) de alto desempenho.

Essa aquisição está alinhada com a visão da Databricks de se tornar uma plataforma abrangente para soluções em dados e inteligência artificial generativa. Recentemente, a empresa também investiu uma quantia não revelada na Mistral, uma startup líder em IA generativa que teve um sucesso considerável na Europa.

Lilac: Simplificando a Exploração de Dados

A aquisição da Mosaic AI no ano passado marcou a mudança estratégica da Databricks em direção a um futuro impulsionado por IA, permitindo que os usuários construam aplicações de IA generativa de forma segura, utilizando dados hospedados. Desde então, a Databricks lançou múltiplos modelos abertos, capacitando os clientes a desenvolver, implantar e manter aplicações LLM de alta qualidade, adaptadas a diversas necessidades empresariais.

Como é amplamente reconhecido na indústria, dados de alta qualidade são a base de iniciativas eficazes de IA, incluindo sistemas LLM. Para garantir um treinamento ótimo dos modelos e testes de desempenho no mundo real—abordando questões como viés e alucinações— as equipes precisam de dados confiáveis. A Lilac enfrenta esses desafios críticos de qualidade de dados dentro da Databricks.

Tradicionalmente, as equipes utilizavam métodos manuais e intensivos em trabalho para explorar dados não estruturados e corrigir suas deficiências. Fundada em 2023 por ex-engenheiros do Google, Daniel Smilkov e Nikhil Thorat, a Lilac oferece uma solução escalável e de código aberto. Sua interface intuitiva e recursos aprimorados com IA permitem que os usuários analisem, compreendam e modifiquem dados textuais não estruturados de forma eficiente.

Recursos da Lilac

De acordo com o site da Lilac, cientistas de dados e pesquisadores de IA podem aproveitar suas capacidades para tarefas como:

- Agrupamento e categorização de documentos

- Realização de buscas semânticas e por palavras-chave

- Detecção de informações pessoais ou duplicatas e ajustes necessários com visualizações comparativas

- Personalização de conjuntos de dados para necessidades específicas

"A equipe por trás da Lilac projetou seu produto especificamente para analisar saídas de modelos quanto a viés ou toxicidade, e para preparar dados para Geração Aumentada por Recuperação (RAG) e ajustes finos ou pré-treinamento de LLMs,” destacaram os executivos da Databricks, Matei Zaharia, Naveen Rao, Jonathan Frankle, Hanlin Tang e Akhil Gupta, em um blog conjunto.

Eles enfatizaram ainda que a tecnologia da Lilac será integrada às ferramentas Mosaic AI da Databricks, aprimorando a capacidade dos desenvolvedores de curar conjuntos de dados para sistemas de IA generativa personalizados. Embora os detalhes específicos da integração ainda não tenham sido divulgados, o objetivo é evidente: simplificar a personalização de dados para avaliar e monitorar as saídas de LLM e preparar conjuntos de dados para processos importantes como RAG e ajuste fino de modelos.

Expansão das Capacidades de IA Generativa

Esta aquisição é um passo significativo para a Databricks em direção à oferta de ferramentas completas para o desenvolvimento de aplicações robustas de IA generativa. Os usuários da plataforma Databricks já têm acesso a tudo o que precisam para criar sistemas impulsionados por LLM. Isso inclui modelos abertos de líderes da indústria como Meta, Stability e Mistral, além de ferramentas especializadas Mosaic para experimentação e otimização.

Em resposta às demandas similares do mercado, concorrentes como Snowflake também estão avançando nesse espaço, tendo introduzido o Cortex, um serviço totalmente gerenciado para ajudar os clientes a construir aplicativos alimentados por modelos abertos avançados.

Most people like

Find AI tools in YBX