Em um esforço para aprimorar as capacidades de raciocínio dos grandes modelos de linguagem (LLMs), pesquisadores do Google DeepMind e da Universidade do Sul da Califórnia introduziram uma inovadora estrutura de prompt "self-discover". Publicada no arXiv e no Hugging Face, essa abordagem revolucionária supera as técnicas de prompt existentes e demonstrou melhorias no desempenho de vários modelos, incluindo o GPT-4 da OpenAI e o PaLM 2 do Google.
“Self-discover aumenta significativamente o desempenho do GPT-4 e do PaLM 2 em benchmarks desafiadores de raciocínio, como BigBench-Hard e MATH, em até 32% em comparação às metodologias Chain of Thought (CoT),” afirmam os pesquisadores em seu artigo. A estrutura self-discover permite que os LLMs identifiquem de forma autônoma as estruturas de raciocínio específicas da tarefa, abordando problemas de maneira mais eficaz. Ao analisar múltiplos módulos de raciocínio atômico—como pensamento crítico e raciocínio passo a passo—os modelos conseguem construir um framework de raciocínio explícito a ser seguido durante a resolução de problemas.
Um dos aspectos mais impressionantes dessa abordagem é sua eficiência, exigindo de 10 a 40 vezes menos poder computacional, o que a torna altamente vantajosa para empresas.
Evolução do Raciocínio dos LLMs
Os LLMs evoluíram para enfrentar diversas tarefas, graças à sua capacidade de processar instruções, raciocinar e gerar respostas coerentes. Utilizando a arquitetura de transformador, esses modelos empregam diversas estratégias de prompt baseadas em teorias cognitivas sobre raciocínio humano e resolução de problemas. Isso inclui prompting de chain-of-thought em few-shot e zero-shot, decomposição de tarefas em subproblemas e prompting reflexivo para derivar princípios gerais.
Embora esses métodos, especialmente o chain-of-thought, sejam eficazes, frequentemente dependem de suposições implícitas sobre como abordar uma tarefa. Os pesquisadores argumentam que isso pode não ser ideal, pois cada tarefa possui uma estrutura intrínseca única que pode se beneficiar de uma técnica personalizada. Com sua pesquisa recente, a equipe do DeepMind e da USC propõe um framework de prompt abrangente que identifica autonomamente a estrutura subjacente para selecionar a estratégia de raciocínio mais apropriada, otimizando a eficiência.
“Self-discover é modelado após a forma como os humanos criam programas internos de raciocínio para solução de problemas. A partir de um conjunto de módulos de raciocínio atômico em linguagem natural, como ‘dividir em subtarefas’ e ‘pensamento crítico’, o LLM compõe uma estrutura de raciocínio coerente intrínseca à tarefa na Etapa 1 e, em seguida, aplica essa estrutura na Etapa 2 para resolver instâncias específicas da tarefa,” detalham os pesquisadores.
Ganhos de Desempenho Notáveis
Para avaliar a eficácia da nova estrutura, os pesquisadores testaram-na em múltiplos modelos, incluindo GPT-4 e PaLM 2-L, em 25 tarefas de raciocínio, incluindo BigBench-Hard e MATH. O framework self-discover superou o método chain-of-thought em 21 das 25 tarefas, alcançando ganhos de desempenho de até 32% e melhorando significativamente a eficiência, exigindo de 10 a 40 vezes menos poder computacional para inferência.
Os resultados mostram que, ao ser testado com o GPT-4, o método self-discover alcançou acurácias de 81%, 85% e 73% nas tarefas BigBench Hard, Thinking for Doing e MATH, respectivamente. Em contraste, o método chain-of-thought obteve acurácias mais baixas de 75%, 52% e 71%. Uma diferença de desempenho similar foi observada nas comparações com a abordagem plan-and-solve.
Para o PaLM 2-L, as acurácias alcançadas foram de 67%, 69% e 50,5% nas três tarefas, superando chain-of-thought (60%, 40% e 42%) e plan-and-solve (61%, 42% e 49%).
Avançando as Capacidades de Raciocínio da IA
A estrutura de prompting self-discover tem o potencial de revolucionar a forma como os LLMs abordam a resolução de problemas, aproximando-os da inteligência geral. Estudos de transferibilidade indicam que as estruturas de raciocínio compostas são amplamente aplicáveis entre tipos de modelos e compartilham características com o raciocínio humano.
“Visando o futuro, estamos ansiosos para continuar explorando o raciocínio estruturado nos LLMs para avançar nas capacidades de resolução de problemas e descobrir novas avenidas para a colaboração entre humanos e IA,” concluiu a equipe.