Como a Gradient Desenvolveu um LLM Aberto com Janela de Contexto de Um Milhão de Tokens

Em uma parceria recente, a startup de IA Gradient e a plataforma de computação em nuvem Crusoe ampliaram a janela de contexto dos modelos Llama-3 para impressionantes 1 milhão de tokens. A janela de contexto refere-se ao número de tokens de entrada e saída que um grande modelo de linguagem (LLM) pode processar, tornando-se crucial para várias aplicações.

Empresas de tecnologia e principais laboratórios de IA estão em uma intensa competição para melhorar as janelas de contexto de seus LLMs. Em poucos meses, o suporte a tokens aumentou de poucos milhares para mais de um milhão. No entanto, modelos com janelas de contexto extensas, como Anthropic Claude (200k tokens), OpenAI GPT-4 (128k tokens) e Google Gemini (1 milhão de tokens), estão predominantemente disponíveis em configurações privadas.

A Necessidade de LLMs de Longo Contexto de Código Aberto

A Gradient colabora com clientes corporativos que buscam integrar LLMs em suas operações. Mesmo antes do lançamento do Llama-3, a empresa já enfrentava limitações significativas de contexto em projetos com clientes. Por exemplo, co-pilotos de codificação, ferramentas essenciais para programação, geralmente geram trechos curtos de código. Agora, as empresas aspiram aprimorar essas capacidades para desenvolver módulos de código inteiros.

“Para isso, o modelo de linguagem deve referenciar uma base de código completa ou múltiplos repositórios do GitHub,” explicou Leo Pekelis, Cientista Chefe da Gradient AI. Fornecer a base de código toda de uma vez seria lento e propenso a imprecisões, já que o modelo não acessaria tudo de uma vez.

“Ter a capacidade de inserir bases de código inteiras no contexto de um modelo de linguagem resolve muitos problemas, permitindo soluções mais precisas e eficientes,” acrescentou Pekelis. Devido a restrições na transferência de dados para terceiros, muitas empresas não podem utilizar modelos privados como Gemini ou Claude. Isso motivou a equipe da Gradient a desenvolver seu próprio modelo de código aberto com contexto de 1 milhão de tokens.

Contribuições para Pesquisa Aberta

A comercialização de LLMs diminuiu a disposição dos laboratórios de IA em compartilhar descobertas e pesquisas. Enquanto as empresas continuam a ampliar as janelas de contexto, elas estão menos inclinadas a divulgar código, dados ou estratégias usadas para otimizar seus modelos. No entanto, a comunidade de pesquisa aberta permanece comprometida em compartilhar conhecimento e avançar modelos. A Gradient baseou-se fortemente em contribuições de pesquisa de universidades e institutos globais.

Usando as versões de 8 bilhões e 70 bilhões de parâmetros do Llama 3 da Meta, com uma janela de contexto padrão de 8.000 tokens, implementaram técnicas da Berkeley AI Research que facilitaram comprimentos de contexto mais longos sem sobrecarregar os recursos de memória e computação. O código inicial veio de um projeto de código aberto em Cingapura, enquanto fórmulas matemáticas essenciais foram obtidas de um laboratório em Xangai. Avaliações de desempenho foram feitas em comparação com referências da Nvidia para comparar seus modelos com outros LLMs de longo contexto como Gemini.

“Muito desse progresso não teria sido viável sem a comunidade de pesquisa aberta,” observou Pekelis. “A pesquisa aberta influencia significativamente nosso trabalho em todos os aspectos.”

Superando Desafios de Computação

O acesso a recursos de computação é um desafio primário na pesquisa de LLMs. A maioria dos laboratórios de IA depende de grandes clusters de GPU para treinamento e testes. A Gradient se uniu à Crusoe para investigar LLMs de longo contexto, aproveitando a nuvem de IA especializada da Crusoe para explorar o desenvolvimento de modelos econômicos.

“O momento foi notável, pois estávamos lançando um cluster L40S da Nvidia,” disse Ethan Petersen, Advocato Sênior de Desenvolvimento na Crusoe. “Nossa meta era demonstrar que esses chips facilitam um treinamento extensivo, não apenas inferências.” Grandes empresas de tecnologia disputam GPUs de alto desempenho como A100, H100 e a próxima B100, cada uma custando dezenas de milhares de dólares, com clusters de servidores somando milhões. A Crusoe oferece essas GPUs e personaliza soluções para seus clientes. Trabalhando em estreita colaboração com a Gradient, eles moldaram o cluster L40S, reduzindo significativamente os custos de treinamento.

“Nossa abordagem com parceiros como a Gradient se concentra em entregar as soluções de computação mais eficientes com base em suas necessidades, e, neste caso, o L40S foi ideal,” afirmou Patrick McGregor, Diretor de Produtos da Crusoe. “Oferecemos um valor tremendo personalizando as ofertas de computação.”

Pekelis observou que as inovações realizadas por meio da otimização de rede no cluster L40S permitiram que treinassem modelos rapidamente, lançando-os logo após o lançamento do Llama-3. Outros provedores de nuvem não possuem o mesmo nível de flexibilidade colaborativa, complicando as configurações personalizadas.

Técnicas de Avaliação do Modelo

Um benchmark crucial usado para avaliar janelas de longo contexto é o teste “agulha no palheiro”, onde uma informação específica é testada dentro de uma sequência longa de texto. “Nossos modelos alcançam desempenho quase perfeito nesse teste, eficaz em até 2 milhões de comprimento de contexto, comparável apenas ao que vi com o Gemini 1.5 Pro,” disse Pekelis.

No entanto, os testes “agulha no palheiro” podem não retratar totalmente o desempenho geral de contexto de um modelo. A equipe também utilizou avaliações mais complexas, como múltiplas “agulhas no palheiro” ou agulhas adversariais, onde informações conflitantes são introduzidas. Eles avaliaram seu modelo usando o benchmark RULER da Nvidia, que inclui 13 tarefas projetadas para avaliar modelos de linguagem de longo contexto com comprimentos de sequência e complexidades variáveis. A equipe também está aprimorando as capacidades dos modelos para aprendizado em contexto de muitos disparos, permitindo que se adaptem dinamicamente a novas tarefas incluindo centenas ou milhares de exemplos no prompt.

Aplicações Empresariais de LLMs de Longo Contexto

Pekelis acredita que modelos abertos de longo contexto vão preencher a lacuna para empresas e desenvolvedores que buscam construir aplicações baseadas em LLM. “Atualmente, há uma disparidade visível entre aplicações de IA individuais e soluções empresariais, que estão defasadas,” ele observou. “Capacitar modelos de linguagem a lidar com mais informações em suas janelas de contexto abre novas possibilidades.”

Janelas de contexto mais longas podem fortalecer sistemas agentic—onde múltiplos modelos de linguagem operam juntos—processando maiores quantidades de informação com menos solicitações. Além disso, LLMs de longo contexto podem simplificar tarefas complexas de processamento de dados, como imitação de estilo. “Em vez de coletar e pré-processar dados de várias fontes para treinar um modelo que imite meu estilo de escrita, você pode simplesmente inserir todos os meus e-mails anteriores, e o modelo aprende a escrever como eu,” explicou Pekelis.

Além disso, LLMs com janelas de contexto extensas poderiam diminuir a dependência da geração aumentada por recuperação (RAG), que exige buscar documentos relevantes para cada prompt. Hipoteticamente, um LLM com contexto infinito poderia incorporar todos os documentos no prompt, selecionando as seções mais relevantes por consulta—embora ainda exigisse reconsultas para cada nova sessão de chat devido a limitações de contexto.

Janelas de contexto aprimoradas também reduzem as barreiras para a criação de protótipos e provas de conceito, auxiliando equipes de produtos a entenderem o potencial dos modelos de linguagem. “Frequentemente, educar os clientes sobre o que é possível é um passo inicial crítico,” concluiu Pekelis. “Desenvolver protótipos ou exemplos iniciais ilustra o potencial transformador para as empresas.”

Most people like

Find AI tools in YBX