Pesquisadores da DeepMind Revelam Notáveis Habilidades de Aprendizado em LLMs de Longo Contexto

Nos últimos anos, os grandes modelos de linguagem (LLMs) evoluíram de processar algumas centenas de palavras para gerenciar conteúdo equivalente a vários livros simultaneamente. Essa capacidade ampliada de entrada, conhecida como “janela de contexto”, está desbloqueando novas aplicações e casos de uso que antes exigiam um esforço significativo de engenharia.

Um estudo recente realizado por pesquisadores do Google DeepMind investiga as capacidades de aprendizado em contexto (ICL) “many-shot” de LLMs com janelas de contexto expandidas. As descobertas indicam que, ao incluir centenas ou até milhares de exemplos de treinamento em um único prompt, o desempenho do modelo pode ser significativamente aprimorado—anteriormente, tais melhorias exigiriam ajuste fino.

Few-shot vs. Many-shot ICL

O ICL permite que os LLMs aprendam novas tarefas usando exemplos apresentados durante a inferência. Isso envolve fornecer ao modelo um prompt que contém vários exemplos resolvidos junto com o problema a ser abordado. Tradicionalmente, esse tipo de aprendizado é conhecido como “few-shot learning”.

Diferentemente do ajuste fino, que modifica os parâmetros do modelo, o ICL é acessível e fácil de usar; no entanto, era limitado pela janela de contexto do modelo. Por exemplo, o GPT-3 suportava uma janela de contexto de aproximadamente 2.000 tokens, restringindo o número de exemplos que podiam ser incluídos em um prompt.

Atualmente, os modelos podem lidar com mais de 100.000 tokens, e modelos como o Gemini 1.5 Pro podem processar mais de um milhão de tokens, permitindo a inclusão de centenas ou milhares de exemplos em cada prompt.

O estudo da DeepMind examina o impacto do many-shot ICL no desempenho dos LLMs em várias tarefas, incluindo resolução de problemas matemáticos, perguntas e respostas, modelagem de recompensas, tradução de línguas de baixa recursos, planejamento e análise de sentimentos. Alguns prompts continham até 8.192 exemplos de ICL, e os resultados mostraram que o desempenho melhorava com a adição de mais exemplos. Durante tarefas de tradução, o long-shot ICL no Gemini Pro alcançou resultados recordes em curdo e tâmil. Em tarefas de resumo, o desempenho do many-shot ICL chegou a igualar o de modelos especializados ajustados, atingindo eficácia ideal apenas quando os exemplos em contexto se expandiram para centenas de milhares de tokens.

ICL Reforçado e Não Supervisionado

Um dos principais desafios do many-shot ICL é a necessidade de grandes volumes de exemplos gerados por humanos de alta qualidade, especialmente em tarefas de raciocínio. Os pesquisadores propuseram duas estratégias para mitigar a dependência de dados gerados por humanos.

A primeira técnica, “ICL reforçado”, substitui exemplos elaborados por humanos por raciocínios gerados pelo modelo. O LLM cria vários raciocínios para um problema utilizando um prompt de cadeia de pensamento few-shot ou zero-shot. Uma vez validados por mecanismos que confirmam as respostas corretas, essas respostas formam um conjunto de dados de ICL composto por pares problema/raciocínio.

O segundo método, “ICL não supervisionado”, utiliza o conhecimento inato do modelo sobre o problema. Essa abordagem envolve um prompt contendo uma lista de problemas não resolvidos junto com um prompt zero-shot ou few-shot para um problema alvo, eliminando a necessidade de respostas elaboradas por humanos. Os pesquisadores hipotetizam que, quando o LLM possui o conhecimento necessário para resolver uma tarefa, fornecer o contexto relevante ajuda-o a focar nos conceitos internos essenciais para a resolução do problema.

Os pesquisadores confirmam que tanto os raciocínios gerados pelo modelo quanto os prompts somente com problemas podem reduzir a dependência de exemplos gerados por humanos.

Adaptando o Comportamento do Modelo

O estudo também revelou que o many-shot ICL pode superar preconceitos de pré-treinamento e aprender efetivamente tarefas de previsão não natural, onde o few-shot ICL pode ter dificuldades. Por exemplo, os pesquisadores alteraram os rótulos de um conjunto de dados de análise de sentimentos para contradizer os preconceitos de sentimento adquiridos pelo LLM durante o treinamento, e seus experimentos demonstraram que, conforme mais exemplos de ICL eram adicionados, o desempenho melhorava dramaticamente, quase alcançando o dos rótulos padrão.

Além disso, o many-shot ICL foi utilizado com sucesso para reconfigurar o modelo para classificação linear e paridade sequencial—tarefas que normalmente são desafiadoras sem um treinamento direcionado. Isso destaca o potencial do aprendizado many-shot para se adaptar a novas tarefas e domínios que podem não estar alinhados com os dados de treinamento de um LLM.

Implicações para Empresas

À medida que os laboratórios de IA trabalham para ampliar as janelas de contexto dos LLMs, alguns especialistas argumentam que o ajuste fino e outras técnicas, como a geração aumentada por recuperação (RAG), podem não ser mais necessárias. As empresas poderiam simplesmente elaborar prompts com informações relevantes, exemplos e instruções de tarefas.

No entanto, o many-shot ICL atualmente não é escalável. Para aplicações de LLM que recebem dezenas de milhões de solicitações diariamente, estender cada prompt por alguns centenas de exemplos poderia impactar significativamente a velocidade e os custos de inferência.

Assim, o many-shot ICL pode servir como uma ferramenta valiosa durante as fases de exploração e prototipagem de aplicações de LLM, permitindo que os desenvolvedores experimentem diversas técnicas de engenharia de prompts sem as limitações da janela de contexto. No entanto, a escalabilidade eficiente dos produtos dependerá da minimização do consumo de tokens e da utilização de modelos menores, mais rápidos e mais econômicos.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles