Técnica Revolucionária Melhora o Raciocínio de LLM ao Filtrar Informações Irrelevantes

Home Notícias de IA Técnica Revolucionária Melhora o Raciocínio de LLM ao Filtrar Informações Irrelevantes

Updated on novembro 28 2023

Modelos de linguagem de grande porte (LLMs) avançaram significativamente em diversas áreas, mas suas habilidades de raciocínio ainda são um campo de pesquisa ativo. Estudos recentes examinaram diferentes técnicas de prompting para melhorar as capacidades de resolução de problemas lógicos dos LLMs.

Uma abordagem inovadora desenvolvida por pesquisadores da Meta, chamada de Atenção do Sistema 2 (S2A), integra conceitos da psicologia. A S2A refina os prompts do usuário removendo informações enganosas ou irrelevantes, permitindo que os LLMs se concentrem exclusivamente em dados relevantes para a tarefa. Esse foco aumenta a precisão em tarefas de pergunta e resposta, além de raciocínio.

Experimentos iniciais revelam que modelos de linguagem que utilizam S2A apresentam melhorias significativas, tornando-se particularmente valiosos para aplicações que exigem capacidades de raciocínio confiáveis.

LLMs e Raciocínio

O desempenho de raciocínio dos LLMs varia. Embora algumas estratégias de engenharia de prompts possam aumentar sua eficácia, esses modelos frequentemente enfrentam dificuldades quando confrontados com conteúdo irrelevante ou opinativo. Por exemplo, se um prompt inclui uma opinião pessoal, o modelo pode simplesmente ecoar a entrada do usuário em vez de fornecer respostas precisas.

Essa limitação decorre dos mecanismos de treinamento e atenção inerentes aos transformers, a arquitetura utilizada nos LLMs. Os transformers focam fortemente na previsão do próximo token, tornando-os sensíveis ao contexto. Se uma entidade é mencionada em um contexto específico, o modelo tende a prever sua recorrência, o que pode distorcer a saída ao enfatizar tokens repetidos.

Entendendo a Atenção do Sistema 2

Os pesquisadores propõem um mecanismo de atenção inovador que utiliza LLMs como raciocinadores em linguagem natural. “Aproveitamos a capacidade dos LLMs de seguir instruções, solicitando que eles gerem contexto focado em material relevante, reduzindo o viés no raciocínio”, explicam.

Ao empregar LLMs ajustados a instruções para revisar seu contexto, a S2A efetivamente elimina textos desnecessários, orientando o modelo a priorizar informações relevantes antes de gerar respostas. O termo Atenção do Sistema 2 se baseia no conceito de raciocínio do psicólogo Daniel Kahneman, discutido em seu livro "Rápido e Devagar".

O raciocínio do Sistema 1 é rápido e intuitivo, mas pode levar a viés devido à sua dependência de atalhos mentais. Em contrapartida, o raciocínio do Sistema 2 é analítico, exigindo maior esforço cognitivo e processando informações de forma mais lógica. O mecanismo S2A busca mitigar os problemas que surgem com os métodos de atenção padrão quando os LLMs enfrentam tarefas de raciocínio.

Segundo os pesquisadores, “a S2A gera respostas mais factuais e minimiza viés em comparação com LLMs tradicionais baseados em atenção”.

Como Funciona a S2A

A técnica S2A consiste em um simples processo de duas etapas. Primeiro, a S2A modifica o contexto original removendo partes irrelevantes. Em seguida, o contexto refinado é passado para o LLM principal para gerar sua saída.

Existem várias maneiras de implementar a etapa inicial. Os pesquisadores observam: “Nossa abordagem aproveita LLMs ajustados a instruções que são proficientes em tarefas de raciocínio e geração, permitindo que executemos isso como um prompt instrucional.”

Usar LLMs ajustados a instruções oferece controle preciso sobre a atenção do modelo com base nas exigências da tarefa ou no processo de ajuste fino. Por exemplo, os pesquisadores projetaram uma função para enviar um prompt sem exemplos, solicitando ao LLM que realizasse a tarefa S2A desejada no prompt original. Este prompt instrui o modelo a regenerar o contexto, separando informações úteis da consulta para esclarecer os passos de raciocínio.

Eles também introduziram várias variantes da S2A. Para contextos mais curtos ou LLMs robustos, a partição do contexto e da pergunta pode ser desnecessária. Basta um prompt para uma reescrita não partida. Outra variante mantém o prompt original enquanto adiciona a consulta gerada pela S2A, permitindo que o modelo acesse ambas as versões.

Os pesquisadores testaram a S2A em várias tarefas, incluindo perguntas e respostas, raciocínio de longo prazo e problemas matemáticos que continham informações irrelevantes ou enganosas. A S2A visa responder perguntas objetivamente, orientando o modelo a depender de dados que produzam as respostas mais precisas.

Resultados e Direções Futuras

Experimentos indicam que a S2A é resistente ao viés de opinião e permite que os LLMs desempenhem quase tão bem quanto quando recebem prompts limpos, isentos de distrações. Além disso, LLMs equipados com S2A demonstram maior objetividade em tarefas de geração de longo prazo.

No entanto, os pesquisadores reconhecem que a S2A não é infalível; os modelos ainda podem ocasionalmente ser influenciados por correlações irrelevantes. Além disso, a S2A aumenta o custo computacional da geração de respostas, pois introduz etapas extras e requer extração de informações contextuais. Esses aspectos destacam áreas para aprimoramento futuro, posicionando a S2A como uma adição promissora ao conjunto de técnicas de raciocínio para aplicações de LLM.

Nvidia Lança Retriever, DGX Cloud e Supercomputador Project Ceiba na AWS

Pika Labs conquista financiamento de $55 milhões e lança plataforma de vídeo com inteligência artificial para competir com Runway.

Most people like

EOS Data Analytics

814.9K

Revolucionando o panorama da observação da Terra, somos um líder global em análises de imagens de satélite impulsionadas por IA. Nossa tecnologia de ponta transforma dados brutos de satélite em insights significativos, capacitando empresas e organizações a tomarem decisões informadas. Descubra como nossas soluções inovadoras podem aprimorar sua compreensão do planeta, otimizar recursos e promover um crescimento sustentável.

Análises baseadas em IA Other

Uwear.ai

24.6K

Transforme imagens em flat-lay em impressionantes fotos de moda com modelos, aproveitando o poder da IA. Essa tecnologia inovadora preenche a lacuna entre imagens estáticas e moda dinâmica, permitindo que designers, varejistas e marcas apresentem suas criações de forma mais envolvente. Mergulhe no mundo da fotografia de moda impulsionada por IA e eleve sua estratégia de marketing visual hoje mesmo!

Geração de modelos de moda com IA AI Photo & Image Generator

DealDrop

411.7K

Descubra nossa poderosa extensão de navegador, projetada para automatizar a aplicação de cupons e comparar preços de forma fácil. Economize tempo e dinheiro enquanto faz compras online, pois nossa ferramenta garante que você nunca perca uma oferta. Experimente uma compra mais inteligente com integração perfeita para economias imbatíveis e decisões de compra informadas.

Cupons Other

Flux AI Studio

109.4K

Descubra nossa plataforma impulsionada por IA que transforma seu texto em imagens impressionantes. Com tecnologia avançada, você pode dar vida às suas palavras de forma fácil—criando visuais que correspondem à sua imaginação. Junte-se a inúmeros usuários que desbloquearam o potencial de transformar ideias em gráficos cativantes utilizando nossas ferramentas inovadoras.

Gerador de imagens com IA Text to Image

Find AI tools in YBX