Na semana passada, discuti as percepções de Mark Zuckerberg sobre a estratégia de IA da Meta, destacando uma vantagem significativa: um vasto e continuamente expandido conjunto de dados interno que treina seus modelos Llama. Zuckerberg afirmou que o Facebook e o Instagram hospedam "centenas de bilhões de imagens compartilhadas publicamente e dezenas de bilhões de vídeos públicos", superando o tamanho do conjunto de dados do Common Crawl. Os usuários também compartilham grandes quantidades de postagens de texto públicas nessas plataformas.
As Necessidades Insaciáveis de Dados da IA
Entretanto, os dados para treinar modelos como os da Meta, OpenAI ou Anthropic são apenas o ponto de partida para entender os requisitos de dados dos grandes modelos de linguagem (LLMs) modernos. A demanda contínua por inferência — o uso dos LLMs em diversas aplicações — cria um ciclo interminável de consumo de dados. É semelhante ao clássico jogo "Hungry Hungry Hippos", onde os modelos de IA coletam dados incansavelmente para funcionar de maneira eficaz.
Conjuntos de Dados Específicos para Inferência Eficaz em IA
Brad Schneider, fundador e CEO da Nomad Data, enfatizou que "[a inferência é] o mercado maior, e muitas pessoas não percebem isso." A Nomad Data opera como uma plataforma de descoberta de dados, conectando mais de 2.500 fornecedores de dados a empresas que buscam conjuntos de dados específicos para suas necessidades de inferência de LLM.
Em vez de agir como um corretor de dados, a Nomad permite que as empresas busquem dados em linguagem natural. Por exemplo, um usuário pode solicitar "um feed de dados de todas as coberturas em construção nos EUA a cada mês." Schneider explicou que muitos usuários não sabem a nomenclatura exata dos conjuntos de dados de que precisam. Os LLMs da Nomad ajudam a identificar fornecedores relevantes que podem fornecer os dados.
Correspondências Instantâneas de Dados
A rápida correspondência entre demanda e oferta exemplifica a eficácia da plataforma. Schneider lembrou de uma seguradora que listou seus dados na Nomad: quase imediatamente, outra empresa buscou dados detalhados sobre acidentes de carro, sem saber que essas informações estavam sob "dados de seguros".
"Isso é meio que a mágica," observou Schneider.
A Importância da Alimentação Contínua de Dados
Enquanto os dados de treinamento são essenciais, Schneider destacou que os modelos são treinados com pouca frequência, e a inferência ocorre continuamente — às vezes, milhares de vezes por minuto. Essa demanda constante por dados frescos é crucial para empresas que utilizam IA generativa, especialmente para gerar insights valiosos.
"Você precisa alimentar algo para que ele faça algo interessante," explicou.
Identificar os dados "certos" continua sendo um desafio para grandes empresas. Inicialmente, utilizar dados internos é fundamental, mas incorporar conjuntos de dados externos de alta qualidade tem sido historicamente difícil. As organizações frequentemente enfrentam dificuldades em extrair informações úteis de vastos arquivos, como milhões de PDFs. Felizmente, os LLMs agora conseguem analisar dados textuais de várias fontes — incluindo registros de consumidores e documentos governamentais — rapidamente.
Desbloqueando o Valor de Dados Antes Ignorados
Schneider comparou essa transformação a descobrir "tesouros enterrados". Dados antes considerados inúteis tornaram-se altamente valiosos. Além disso, os dados são essenciais para personalizar o treinamento de LLMs. Por exemplo, para desenvolver um modelo que reconheça recibos japoneses, é necessário um conjunto de dados desses recibos. Da mesma forma, criar um modelo que identifique anúncios em imagens de campos de futebol requer um conjunto de dados de vídeos relevantes.
Empresas de Mídia Monetizando Seus Dados
Grandes empresas de mídia também estão começando a licenciar seus dados para empresas de LLM. A OpenAI recentemente fez parceria com a Axel Springer, enquanto as negociações com o New York Times terminaram em um processo judicial. A Nomad Data está colaborando ativamente com meios de comunicação e outras empresas para expandir sua rede de fornecedores de dados. Schneider relatou que a Nomad envolveu várias corporações — de fabricantes de automóveis a seguradoras — que estão listando seus dados na plataforma.
A Demanda Contínua por Dados de LLM
Basicamente, a cadeia de suprimento de dados de LLM é um ciclo autorreforçado. A Nomad Data emprega LLMs para identificar novos fornecedores de dados e, em seguida, ajuda os usuários a localizar os dados que precisam. Esses dados são então utilizados com APIs de LLM para treinamento e inferência.
"Os LLMs são cruciais para o nosso negócio," enfatizou Schneider. "À medida que coletamos mais dados textuais, aprendemos continuamente como utilizar esses conjuntos de dados diversos."
Os dados de treinamento de IA representam uma pequena fração do mercado total, com a inferência de LLM e o treinamento personalizado apresentando as oportunidades mais empolgantes. Schneider comentou: "Agora posso adquirir dados que antes não tinham valor, o que será fundamental para construir meu negócio, graças a essas novas tecnologias."