Alimentando a Fera: Como o Crescimento do Mercado de Dados Impulsiona a Demanda Insaciável por LLMs

Home Notícias de IA Alimentando a Fera: Como o Crescimento do Mercado de Dados Impulsiona a Demanda Insaciável por LLMs

Updated on outubro 29 2024

Na semana passada, discuti as percepções de Mark Zuckerberg sobre a estratégia de IA da Meta, destacando uma vantagem significativa: um vasto e continuamente expandido conjunto de dados interno que treina seus modelos Llama. Zuckerberg afirmou que o Facebook e o Instagram hospedam "centenas de bilhões de imagens compartilhadas publicamente e dezenas de bilhões de vídeos públicos", superando o tamanho do conjunto de dados do Common Crawl. Os usuários também compartilham grandes quantidades de postagens de texto públicas nessas plataformas.

As Necessidades Insaciáveis de Dados da IA

Entretanto, os dados para treinar modelos como os da Meta, OpenAI ou Anthropic são apenas o ponto de partida para entender os requisitos de dados dos grandes modelos de linguagem (LLMs) modernos. A demanda contínua por inferência — o uso dos LLMs em diversas aplicações — cria um ciclo interminável de consumo de dados. É semelhante ao clássico jogo "Hungry Hungry Hippos", onde os modelos de IA coletam dados incansavelmente para funcionar de maneira eficaz.

Conjuntos de Dados Específicos para Inferência Eficaz em IA

Brad Schneider, fundador e CEO da Nomad Data, enfatizou que "[a inferência é] o mercado maior, e muitas pessoas não percebem isso." A Nomad Data opera como uma plataforma de descoberta de dados, conectando mais de 2.500 fornecedores de dados a empresas que buscam conjuntos de dados específicos para suas necessidades de inferência de LLM.

Em vez de agir como um corretor de dados, a Nomad permite que as empresas busquem dados em linguagem natural. Por exemplo, um usuário pode solicitar "um feed de dados de todas as coberturas em construção nos EUA a cada mês." Schneider explicou que muitos usuários não sabem a nomenclatura exata dos conjuntos de dados de que precisam. Os LLMs da Nomad ajudam a identificar fornecedores relevantes que podem fornecer os dados.

Correspondências Instantâneas de Dados

A rápida correspondência entre demanda e oferta exemplifica a eficácia da plataforma. Schneider lembrou de uma seguradora que listou seus dados na Nomad: quase imediatamente, outra empresa buscou dados detalhados sobre acidentes de carro, sem saber que essas informações estavam sob "dados de seguros".

"Isso é meio que a mágica," observou Schneider.

A Importância da Alimentação Contínua de Dados

Enquanto os dados de treinamento são essenciais, Schneider destacou que os modelos são treinados com pouca frequência, e a inferência ocorre continuamente — às vezes, milhares de vezes por minuto. Essa demanda constante por dados frescos é crucial para empresas que utilizam IA generativa, especialmente para gerar insights valiosos.

"Você precisa alimentar algo para que ele faça algo interessante," explicou.

Identificar os dados "certos" continua sendo um desafio para grandes empresas. Inicialmente, utilizar dados internos é fundamental, mas incorporar conjuntos de dados externos de alta qualidade tem sido historicamente difícil. As organizações frequentemente enfrentam dificuldades em extrair informações úteis de vastos arquivos, como milhões de PDFs. Felizmente, os LLMs agora conseguem analisar dados textuais de várias fontes — incluindo registros de consumidores e documentos governamentais — rapidamente.

Desbloqueando o Valor de Dados Antes Ignorados

Schneider comparou essa transformação a descobrir "tesouros enterrados". Dados antes considerados inúteis tornaram-se altamente valiosos. Além disso, os dados são essenciais para personalizar o treinamento de LLMs. Por exemplo, para desenvolver um modelo que reconheça recibos japoneses, é necessário um conjunto de dados desses recibos. Da mesma forma, criar um modelo que identifique anúncios em imagens de campos de futebol requer um conjunto de dados de vídeos relevantes.

Empresas de Mídia Monetizando Seus Dados

Grandes empresas de mídia também estão começando a licenciar seus dados para empresas de LLM. A OpenAI recentemente fez parceria com a Axel Springer, enquanto as negociações com o New York Times terminaram em um processo judicial. A Nomad Data está colaborando ativamente com meios de comunicação e outras empresas para expandir sua rede de fornecedores de dados. Schneider relatou que a Nomad envolveu várias corporações — de fabricantes de automóveis a seguradoras — que estão listando seus dados na plataforma.

A Demanda Contínua por Dados de LLM

Basicamente, a cadeia de suprimento de dados de LLM é um ciclo autorreforçado. A Nomad Data emprega LLMs para identificar novos fornecedores de dados e, em seguida, ajuda os usuários a localizar os dados que precisam. Esses dados são então utilizados com APIs de LLM para treinamento e inferência.

"Os LLMs são cruciais para o nosso negócio," enfatizou Schneider. "À medida que coletamos mais dados textuais, aprendemos continuamente como utilizar esses conjuntos de dados diversos."

Os dados de treinamento de IA representam uma pequena fração do mercado total, com a inferência de LLM e o treinamento personalizado apresentando as oportunidades mais empolgantes. Schneider comentou: "Agora posso adquirir dados que antes não tinham valor, o que será fundamental para construir meu negócio, graças a essas novas tecnologias."

Transformando os Recursos Humanos: ADP Assist Introduz Inovação em IA

Roblox Derruba Barreiras Linguísticas com Tradução de Chat em Tempo Real Baseada em IA

Most people like

Boords

358.4K

Você deseja dar vida aos seus personagens imaginativos de forma simples usando inteligência artificial? Este guia mostrará como gerar personagens de IA cativantes que atraem a atenção e estimulam a criatividade. Descubra as ferramentas e técnicas que tornam a criação de personagens fácil, envolvente e personalizável para seus projetos. Prepare-se para liberar seu potencial criativo com a IA!

Gerador de Personagens AI Character

Ellow

41.7K

Descubra os principais desenvolvedores freelancers por meio do nosso rigoroso processo de seleção, garantindo que você se conecte com os melhores talentos do setor.

mercado de talentos AI Recruiting

VelocitiPM

6.1K

No cenário tecnológico em rápida evolução de hoje, integrar inteligência artificial à gestão de produtos não é mais opcional—é essencial. As empresas de software que aproveitam a IA não apenas melhoram seus produtos, mas também conquistam uma vantagem competitiva no mercado. Este guia explora os princípios fundamentais da gestão de produtos com IA, oferecendo insights práticos para equipes de software aproveitarem efetivamente as tecnologias de IA. Desde a compreensão das necessidades dos usuários até a implementação de estratégias inovadoras impulsionadas por IA, fornecemos as ferramentas necessárias para prosperar na era digital. Junte-se a nós enquanto mergulhamos no mundo da gestão de produtos com IA e desbloqueamos novas possibilidades para suas ofertas de software.

Potenciado por IA AI Product Description Generator

Xpression Camera

54.4K

Eleve seu visual instantaneamente com o aplicativo Xpression Camera, projetado para transformar sua aparência em tempo real. Melhore suas fotos e vídeos sem esforço e descubra possibilidades infinitas de autoexpressão!

aplicativo de câmera virtual AI Avatar Generator

Find AI tools in YBX