Modelos de linguagem emergentes (LLMs), como o ChatGPT da OpenAI (especialmente o GPT-4), Claude AI e Gemini, demonstraram capacidades limitadas de tomada de decisão. Este artigo explora pesquisas recentes sobre a tomada de decisão em LLMs e suas implicações para o futuro.
Tradicionalmente, uma tomada de decisão eficaz em LLMs envolve o reconhecimento de padrões ou regras subjacentes e a aplicação flexível deles a novos cenários. Um estudo do Santa Fe Institute descobriu que os LLMs, incluindo o ChatGPT, encontram dificuldades para "raciocinar sobre conceitos básicos". Tomar decisões acertadas exige uma compreensão profunda do contexto do prompt e das potenciais consequências da resposta gerada.
Decisões erradas dos LLMs podem resultar em desfechos prejudiciais. Por exemplo, em 2023, a National Eating Disorder Association suspendeu seu chatbot de IA "Tessa" após ele começar a fornecer conselhos nocivos, como sugerir pesagens semanais e um déficit calórico de 500 a 1.000 calorias. A reação negativa levou à rápida desativação do chatbot.
Além disso, os LLMs tendem a gerar recomendações genéricas. Pesquisas da INSEAD revelaram que, ao serem questionados sobre estratégias empresariais, o ChatGPT frequentemente recorreu à sabedoria convencional, promovendo o trabalho colaborativo e uma cultura de inovação. No entanto, a estratégia empresarial é um processo complexo que exige insights específicos, não conselhos genéricos.
Um possível contrargumento é que treinar LLMs especificamente para estratégias empresariais ou conselhos em saúde poderia resolver esses problemas. Contudo, melhorar sua compreensão contextual não pode ser abordado apenas ampliando seus conjuntos de dados. Adicionar mais dados pode introduzir preconceitos e aumentar a demanda computacional sem melhorar a qualidade da tomada de decisões.
Capacitando a Tomada de Decisão Contextual
Treinar LLMs para a tomada de decisão contextual requer uma abordagem sutil. Duas estratégias avançadas da pesquisa atual em aprendizado de máquina propõem maneiras de aprimorar a tomada de decisão em LLMs para que se assemelhem aos processos cognitivos humanos. A primeira, AutoGPT, utiliza um mecanismo autorreflexivo para planejar e validar resultados. A segunda, Tree of Thoughts (ToT), promove uma tomada de decisão eficaz ao se afastar do raciocínio linear tradicional.
O AutoGPT é projetado para criar, avaliar e aprimorar modelos de forma autônoma com o objetivo de alcançar resultados específicos. Melhorias recentes no AutoGPT agora incorporam uma estratégia de "opiniões adicionais", que integra modelos de especialistas ao processo de tomada de decisão. Essa integração permite que os LLMs utilizem informações relevantes de várias análises de especialistas, melhorando os resultados por meio de uma abordagem sistemática de "pensamento-raciocínio-planejamento-crítica".
Se implementado de forma eficaz, LLMs aumentados com modelos de especialistas poderiam processar mais informações do que os humanos, sugerindo que podem tomar decisões mais informadas. No entanto, uma limitação do AutoGPT é sua janela de contexto restrita, o que pode gerar ciclos de interação infinitos. Fornecer todas as informações relevantes desde o início geralmente resulta em melhores desfechos em comparação com a injeção gradual de dados ao longo da conversa.
Simulando a Cognição Humana com o Tree of Thoughts
A estrutura Tree of Thoughts (ToT) oferece um método promissor para aprimorar a precisão dos LLMs, imitando processos cognitivos humanos. A tomada de decisão humana frequentemente envolve gerar e avaliar múltiplos cenários. A ToT identifica falhas no raciocínio linear nos LLMs, semelhante à abordagem do AutoGPT. Em experimentos, a ToT mede as habilidades dos LLMs em seguir instruções em linguagem natural ao completar tarefas como quebra-cabeças e escrita criativa.
O raciocínio linear tradicional nos LLMs é representado pelo "Chain of Thought", que delineia um processo sequencial de tomada de decisão. No entanto, a ToT busca aprimorar as habilidades autocriticas dos LLMs e explorar diferentes trajetórias de raciocínio. Por exemplo, no Game of 24, o Chain of Thought teve dificuldades para identificar diferentes operações matemáticas para alcançar 24, resultando em uma baixa taxa de precisão. A capacidade da ToT de avaliar múltiplos resultados levou a uma taxa de precisão de 74% na mesma tarefa.
Se os LLMs conseguirem melhorar consistentemente seu julgamento, futuras colaborações entre humanos e IA na tomada de decisões estratégicas poderão se tornar uma realidade. As aplicações da ToT se estendem à programação, análise de dados e robótica, enquanto o AutoGPT aspira à inteligência geral.
À medida que a pesquisa acadêmica evolui, estratégias inovadoras para melhorar a tomada de decisão cognitiva em LLMs estão emergindo. Dada sua capacidade inerente de analisar grandes volumes de dados de maneira eficiente, avanços bem-sucedidos poderiam permitir que os LLMs igualassem ou até superassem as capacidades de tomada de decisão humanas nos próximos anos.