Como os LLMs Estão Integrados na Estrutura Moderna de Dados: Perspectivas de 2023

Quando o ChatGPT foi lançado há mais de um ano, ele ofereceu aos usuários da internet um assistente de IA sempre disponível para diversas tarefas, desde a geração de conteúdo em linguagem natural, como ensaios, até a análise de informações complexas. Essa ascensão rápida destacou a poderosa tecnologia por trás dele: a série GPT de modelos de linguagem de grande escala (LLMs).

Hoje, os LLMs, incluindo a série GPT, não apenas aprimoram tarefas individuais; eles estão revolucionando as operações empresariais como um todo. As empresas estão utilizando APIs de modelos comerciais e soluções de código aberto para automatizar tarefas repetitivas, melhorar eficiências e simplificar funções-chave. Imagine interagir com a IA para projetar campanhas publicitárias para equipes de marketing ou acelerar o suporte ao cliente acessando rapidamente o banco de dados correto.

A Transformação da Pilha de Dados

Os dados são cruciais para o desempenho dos grandes modelos de linguagem. Quando treinados de forma eficaz, esses modelos permitem que equipes manipulam e analisem seus dados de maneira eficiente. À medida que o ChatGPT e seus concorrentes ganharam destaque no último ano, muitas empresas integraram a IA generativa em seus fluxos de trabalho de dados, simplificando a experiência do usuário e permitindo que os clientes economizassem tempo e recursos em suas tarefas principais.

Um dos avanços mais significativos foi a introdução de recursos de consulta conversacional. Essa funcionalidade permite que os usuários interajam com dados estruturados (dados organizados em linhas e colunas) usando linguagem natural, eliminando a necessidade de escrever consultas SQL complexas. Com a funcionalidade de texto-para-SQL, até usuários não técnicos podem inserir consultas em linguagem simples e receber insights de seus dados.

Vários fornecedores-chave lideraram essa capacidade, incluindo Databricks, Snowflake, Dremio, Kinetica e ThoughtSpot. A Kinetica, que inicialmente utilizou o ChatGPT, agora emprega seu próprio LLM. A Snowflake oferece duas ferramentas principais: um copiloto para consultas de dados conversacionais e geração de consultas SQL, e uma ferramenta de Document AI que extrai informações de conjuntos de dados não estruturados, como imagens e PDFs. A Databricks opera de maneira semelhante com sua solução ‘LakehouseIQ’.

Startups emergentes também estão focando em análises baseadas em IA. Por exemplo, a DataGPT, com sede na Califórnia, fornece um analista de IA dedicado que executa milhares de consultas em tempo real, entregando resultados em um formato conversacional.

Apoio à Gestão de Dados e Iniciativas de IA

Além de gerar insights, os LLMs estão facilitando cada vez mais tarefas de gestão de dados críticas para a construção de produtos de IA robustos. Em maio, a Informatica lançou o Claire GPT, uma ferramenta de IA conversacional multi-LLM que ajuda os usuários a descobrir, gerenciar e interagir com seus ativos de dados na Intelligent Data Management Cloud (IDMC) usando entradas em linguagem natural. O Claire GPT realiza várias funções, incluindo descoberta de dados, criação de pipelines, exploração de metadados e controle de qualidade.

Para ajudar ainda mais as equipes no desenvolvimento de ofertas de IA, a Refuel AI introduziu um LLM personalizado para tarefas de rotulação e enriquecimento de dados. Pesquisas publicadas em outubro de 2023 indicam que os LLMs também podem reduzir efetivamente o ruído em conjuntos de dados, uma etapa essencial para garantir a qualidade da IA.

Os LLMs também são aplicáveis em engenharia de dados, especialmente em integração e orquestração de dados. Eles podem gerar o código necessário para converter diversos tipos de dados, conectar a diferentes fontes ou criar templates em YAML e Python para a construção de DAGs do Airflow.

Olhando para o Futuro

Em apenas um ano, os LLMs tiveram um impacto significativo no cenário empresarial e, à medida que esses modelos avançam em 2024, podemos esperar ainda mais aplicações ao longo da pilha de dados, incluindo o campo emergente da observabilidade de dados. A Monte Carlo introduziu o Fix with AI, uma ferramenta que identifica problemas em pipelines de dados e recomenda código corretivo. Da mesma forma, a Acceldata adquiriu a Bewgle para aprimorar a integração de LLMs para observabilidade de dados.

À medida que novas aplicações surgem, é crucial que as equipes assegurem que seus modelos de linguagem, sejam desenvolvidos internamente ou ajustados, mantenham alto desempenho. Mesmo pequenos erros podem causar impactos significativos a montante, potencialmente interrompendo a experiência do cliente.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles