Avanços no Raciocínio da IA: Apresentando o Quiet-STaR
Os seres humanos possuem uma habilidade única de raciocinar, considerando "se" e "por quê", além de interpretar informações implícitas para resolver problemas complexos. No entanto, modelos tradicionais de IA têm enfrentado dificuldades nesse nível de raciocínio. Pesquisadores da Stanford University e da Notbad AI, Inc. desenvolveram o Quiet-STaR, uma extensão inovadora do modelo Self-Taught Reasoner (STaR), que ensina a IA a pensar antes de responder, imitando os processos de pensamento humano.
Melhorias do Quiet-STaR
O Quiet-STaR foi implementado no modelo Mistral 7B, melhorando significativamente suas capacidades de raciocínio zero-shot. Avanços notáveis foram observados em:
- Precisão nas respostas do CommonsenseQA (de 36,3% para 47,2%)
- Resolução de problemas de matemática de nível fundamental no GSM8K (de 5,9% para 10,9%)
Essas melhorias estão diretamente relacionadas ao número de tokens que representam os pensamentos internos do modelo. Os pesquisadores afirmam: “O Quiet-STaR representa um passo em direção a modelos de linguagem que podem aprender a raciocinar de maneira mais geral e escalável.”
Limitações Anteriores no Raciocínio da IA
Abordagens anteriores ao raciocínio da IA dependiam fortemente de treinamento específico para tarefas, levando a uma generalização limitada. Os modelos eram frequentemente treinados com conjuntos de dados cuidadosamente selecionados, focados em tarefas restritas, o que restringia sua capacidade de se adaptar a uma gama mais ampla de cenários.
Por exemplo, embora um modelo de linguagem ajustado ao raciocínio humano superasse uma IA de respostas diretas, essas metodologias permaneciam confinadas a conjuntos de dados específicos. O modelo STaR demonstrou que as IAs poderiam aprimorar suas habilidades de raciocínio por meio de aprendizado iterativo a partir de conjuntos de dados de perguntas e respostas, mas a dependência de dados curados limitava sua escalabilidade.
“Treinar a partir desses conjuntos de dados cobrirá inerentemente apenas uma fração das tarefas de raciocínio”, argumentam os pesquisadores, enfatizando a necessidade de modelos que extraem justificativas de entradas textuais diversas.
Metodologia Quiet-STaR
A técnica Quiet-STaR opera gerando múltiplos pensamentos internos a cada token, engajando-se em um processo de “pensamento” antes de fornecer uma resposta. Isso permite que a IA avalie textos futuros com um contexto aprimorado. Ao empregar o algoritmo REINFORCE, o modelo otimiza suas previsões, descartando saídas menos precisas e refinando iterativamente seu raciocínio ao longo do treinamento.
Para incentivar o raciocínio generalista, os pesquisadores utilizaram um prompt zero-shot (“Vamos pensar passo a passo”) e treinaram o Quiet-STaR em conjuntos de dados de texto da web diversificados, como OpenWebMath e Colossal Clean Crawled Corpus. “O Quiet-STaR permite que um modelo pense silenciosamente em cada nível de token, facilitando uma distribuição que aprimora a utilidade”, observam.