Um dos termos de gíria mais intrigantes e práticos que emergiram do Reddit é "ELI5", sigla de "Explain It Like I’m 5" ("Explique como se eu tivesse 5 anos"). Esse termo incentiva especialistas a simplificar ideias complexas, facilitando a compreensão de conceitos intricados, mesmo para aqueles sem educação formal.
Essa abordagem direta também é benéfica para modelos de IA, especialmente no que se refere ao problema da "legibilidade", que diz respeito à compreensão de como os sistemas de IA chegam a suas conclusões. Hoje, pesquisadores da OpenAI apresentam um avanço significativo nessa área com um novo artigo científico intitulado “Prover-Verifier Games Improve Legibility of LLM Outputs”, disponível no site da empresa e no arXiv.org. O trabalho investiga um novo algoritmo que permite que modelos de linguagem grandes (LLMs), como o GPT-4, articulem seu raciocínio de forma mais clara.
Estabelecer confiança em sistemas de IA é fundamental, especialmente em áreas sensíveis como saúde, direito, militar e infraestrutura crítica, onde imprecisões podem resultar em consequências perigosas. Mesmo empresas fora desses setores podem hesitar em adotar IA devido a preocupações com resultados incorretos. O trabalho da OpenAI visa fornecer uma estrutura que permita que os modelos de IA expliquem claramente seus processos de tomada de decisão, aumentando a confiança do usuário.
O pesquisador da OpenAI, Jan Hendrik Kirchner, comentou: “Esta é uma pesquisa recente que acabamos de concluir e estamos ansiosos para compartilhar essas percepções com a comunidade para promover a conscientização sobre o problema da legibilidade e incentivar a colaboração para sua resolução.”
Entendendo o Jogo Prover-Verifier
O algoritmo desenvolvido pela OpenAI baseia-se no “Jogo Prover-Verifier”, um conceito originalmente detalhado por pesquisadores da Universidade de Toronto e do Vector Institute for Artificial Intelligence em 2021. Esse jogo envolve dois modelos de IA: um "prover" mais avançado e um "verifier" menos sofisticado. O objetivo do prover é convencer o verifier da sua resposta, independentemente de sua correção, enquanto o verifier busca identificar a resposta correta.
O objetivo é incentivar os modelos de IA a "mostrar seu trabalho" e explicar seu raciocínio aos usuários humanos, promovendo, assim, abordagens de resolução de problemas verificáveis. “À medida que modelos de linguagem grandes são cada vez mais utilizados em domínios complexos e críticos, garantir a confiabilidade de suas saídas é essencial. O método do Jogo Prover-Verifier melhora a clareza e a verificabilidade, componentes chave da confiabilidade”, comentou a pesquisadora da OpenAI, Yining Chen.
Implementando o Jogo Prover-Verifier
A OpenAI utilizou dois modelos de GPT-4 ajustados para realizar uma série de rodadas em que resolveram problemas de matemática de nível escolar. Um aspecto crucial de sua metodologia envolveu alternar o comportamento do modelo prover entre ser "útil" (visando fornecer a resposta correta) e "sorrateiro" (tentando enganar o verifier). O modelo verifier, alheio às intenções do prover, avaliou as respostas com base exclusivamente em seu treinamento.
Após cada rodada, ambos os modelos foram re-treinados com base em seu desempenho anterior, aprimorando sua capacidade de avaliar a correção e articular explicações de maneira acessível. Contratados humanos foram recrutados para avaliar a legibilidade das respostas do modelo prover.
Após várias rodadas, os pesquisadores observaram que o modelo verifier melhorou sua resistência às técnicas de persuasão do prover sorrateiro, enquanto o modelo prover se tornou mais eficaz em explicar seu raciocínio. O artigo observa: “Soluções sorrateiras que são mais difíceis para os menores verifiers detectarem também são mais desafiadoras para humanos, enquanto soluções úteis que são mais legíveis para os menores verifiers também são mais compreensíveis para humanos.”
O algoritmo resultante desses experimentos otimiza os LLMs tanto para correção quanto para clareza, e a OpenAI acredita que isso facilitará o desenvolvimento de sistemas de IA que gerem não apenas saídas corretas, mas também transparentes, aumentando assim a segurança e a confiança em aplicações do mundo real. Como Chen ressaltou, esse método tem o potencial de alinhar sistemas de IA mais avançados com avaliadores humanos, um passo crucial à medida que os modelos se aproximam ou superam a inteligência humana. Kirchner acrescentou: “Nesse estágio, pode se tornar cada vez mais difícil para os humanos julgar de forma confiável a precisão do conteúdo gerado pela IA.”