Modelos de Linguagem de Grande Escala (LLMs) demonstraram potencial na resolução de tarefas de planejamento e raciocínio, explorando diversas soluções. No entanto, os métodos atuais podem ser lentos, exigir muitos recursos computacionais e, em algumas situações, gerar resultados não confiáveis.
Para superar esses desafios, pesquisadores da Cornell University e do IBM Research desenvolveram o AutoToS, uma técnica que combina as capacidades de planejamento dos LLMs com a eficiência e precisão dos algoritmos de busca baseados em regras. O AutoToS minimiza a intervenção humana e reduz significativamente os custos computacionais associados à resolução de problemas de planejamento, tornando-se uma solução viável para aplicações de LLM que necessitam de decisões fundamentadas em extensos espaços de soluções.
Técnicas Inovadoras para Planejamento
O interesse na utilização de LLMs para questões de planejamento aumentou, levando à criação de diversos métodos. Dentre os mais eficazes, o Tree of Thoughts utiliza LLMs como algoritmo de busca para validar soluções e sugerir correções. Contudo, essas técnicas enfrentam dois desafios críticos: a alta demanda por chamadas aos LLMs, que pode ser custosa, e a falta de garantias de "completude" e "correção". A completude assegura que uma solução será eventualmente encontrada, se existir, enquanto a correção confirma que qualquer solução fornecida é válida.
O Thought of Search (ToS) propõe uma alternativa, aproveitando os LLMs para gerar código para componentes-chave de algoritmos de busca: a função sucessora, que explora diferentes nós, e a função objetivo, que determina se o estado desejado foi alcançado. Esse método melhora a eficiência ao reduzir a necessidade de envolvimento dos LLMs durante o processo de busca.
Michael Katz, membro da equipe de pesquisa do IBM Research, explica: “Historicamente, a comunidade de planejamento codificava manualmente esses componentes para novos problemas ou os gerava a partir de descrições em linguagem de planejamento, que eram ou codificadas manualmente ou aprendidas a partir de dados. Nosso objetivo foi usar modelos de linguagem grande para gerar código para componentes de busca a partir de descrições textuais de problemas.”
A técnica original de ToS apresentou avanços promissores na correção e completude de algoritmos de busca, mas exigia especialistas humanos para feedback sobre o código gerado, criando um gargalo que limitava a velocidade do algoritmo.
Automatizando o Processo com AutoToS
Para lidar com essa limitação, o AutoToS automatiza o processo de feedback e depuração, utilizando testes unitários e instruções de depuração, juntamente com técnicas de prompting de poucos exemplos e de cadeia de pensamento (CoT).
O AutoToS opera em várias etapas. Primeiramente, fornece ao LLM uma descrição do problema e o incentiva a gerar código para as funções sucessora e objetivo. Em seguida, testes unitários avaliam a função objetivo, fornecendo feedback para as revisões necessárias. Após a função objetivo ser aprovada nos testes, o algoritmo realiza uma busca limitada em largura para verificar a correção e completude, iterando até que as funções atendam a todos os critérios. Finalmente, as funções validadas são incorporadas em um algoritmo de busca clássico, executando a busca completa de forma eficiente.
Avaliação do AutoToS
Os pesquisadores avaliaram o AutoToS em várias tarefas de planejamento e raciocínio, incluindo BlocksWorld, Mini Crossword e o Jogo 24—onde quatro inteiros devem ser combinados aritmeticamente para totalizar 24. Eles utilizaram diversos LLMs, incluindo GPT-4o, Llama 2 e DeepSeek Coder, para analisar as variações de desempenho com base no tamanho do modelo.
Os resultados mostraram que o AutoToS permitiu que todos os modelos identificassem e corrigissem erros de código utilizando feedback. Modelos maiores geralmente produziram funções objetivo precisas sem feedback e exigiram iterações mínimas para aprimorar a função sucessora. Notavelmente, o GPT-4o-mini apresentou resultados de precisão robustos, apesar de seu tamanho menor.
Os pesquisadores observaram: “Com apenas algumas chamadas ao modelo de linguagem, demonstramos que podemos obter os componentes de busca sem feedback humano direto, garantindo correção, completude e quase 100% de precisão em todos os modelos e domínios.” O AutoToS reduz drasticamente as chamadas aos LLMs em comparação a outros métodos; por exemplo, resolver os 1.362 quebra-cabeças no conjunto de dados do Jogo 24 exigiu cerca de 100.000 chamadas ao GPT-4 com métodos anteriores, enquanto o AutoToS necessitou de apenas 2,2 chamadas em média.
Katz comentou: “Com esses componentes, podemos empregar o algoritmo BFS padrão para resolver todos os 1.362 jogos em menos de 2 segundos com total precisão, algo que os métodos anteriores não conseguiram alcançar.”
Implicações para Aplicações Empresariais
O AutoToS apresenta um potencial significativo para contextos empresariais que requerem soluções de planejamento. Ao reduzir os custos de uso de LLM e a dependência de entrada manual, permite que os especialistas se concentrem no planejamento de alto nível e nas especificações de metas.
Katz enfatiza: “Esperamos que o AutoToS melhore tanto o desenvolvimento quanto a implementação de soluções baseadas em planejamento, usando modelos de linguagem para criar componentes de busca verificáveis e acelerando o desenvolvimento, contornando problemas típicos da implementação de LLM.”
ToS e AutoToS exemplificam a IA neuro-simbólica, uma abordagem híbrida que combina aprendizado profundo e sistemas baseados em regras para enfrentar desafios complexos. Essa abordagem vem sendo cada vez mais reconhecida como uma direção eficaz para abordar as limitações dos sistemas de IA atuais.
“Não tenho dúvidas sobre o papel futuro dos sistemas híbridos na IA,” afirmou Harsha Kokel, cientista pesquisador da IBM. “Atuais modelos de linguagem podem ser vistos como sistemas híbridos, uma vez que realizam buscas para determinar os próximos tokens.”
Embora ToS e AutoToS mostrem um considerável potencial, mais investigações são essenciais.
“É empolgante testemunhar como o planejamento com linguagem natural evolui e como os LLMs podem aprimorar a integração de ferramentas de planejamento nos processos de decisão, abrindo caminho para futuros agentes inteligentes,” concluíram Kokel e Katz. “Estamos ansiosos para explorar como o conhecimento do mundo dos LLMs pode enriquecer o planejamento e a ação em situações do mundo real.”