Os pesquisadores identificaram uma desvantagem significativa na evolução dos chatbots avançados. Embora os modelos de IA se tornem mais precisos ao longo do tempo, eles também tendem a responder perguntas fora de sua área de especialização em vez de admitir incertezas. Isso leva os usuários a aceitarem suas respostas confiantes, porém incorretas, perpetuando um ciclo de desinformação. “Eles estão respondendo quase tudo hoje em dia,” afirma José Hernández-Orallo, professor na Universitat Politècnica de València, na Espanha. “Isso significa mais respostas corretas, mas também mais incorretas.”
Hernández-Orallo, líder deste estudo realizado em colaboração com colegas do Instituto Valenciano de Pesquisa em Inteligência Artificial, explorou três famílias de grandes modelos de linguagem (LLMs): a série GPT da OpenAI, o LLaMA da Meta e o BLOOM de código aberto. A equipe analisou uma variedade de modelos, começando pelo relativamente básico GPT-3 ada e progredindo até o mais avançado GPT-4, lançado em março de 2023. Importante notar que as versões mais recentes, GPT-4o e o1-preview, não foram incluídas na análise.
Os pesquisadores avaliaram cada modelo com milhares de perguntas em diversos tópicos, incluindo aritmética, geografia e ciências, além de tarefas como alfabetização de listas. Eles categorizaram as solicitações de acordo com sua dificuldade percebida. Os resultados mostraram que, à medida que os modelos avançavam, a frequência de respostas incorretas aumentava, indicando que chatbots mais sofisticados se assemelham a professores excessivamente confiantes que acreditam ter respostas para todas as perguntas.
A interação humana complicou ainda mais o problema. Voluntários encarregados de avaliar a precisão das respostas da IA muitas vezes classificavam respostas erradas como corretas, com taxas de erro variando de 10 a 40 por cento. Hernández-Orallo concluiu: “Os humanos não conseguem supervisionar esses modelos de forma eficaz.”
Para mitigar essa questão, a equipe de pesquisa sugere que os desenvolvedores de IA se concentrem em melhorar o desempenho em tarefas mais fáceis e programem os chatbots para evitar tentativas em perguntas mais complexas. “Precisamos que as pessoas reconheçam: ‘Posso usar isso nesta área e não deveria usar naquela área,’” acrescentou Hernández-Orallo.
Embora essa seja uma sugestão prudente, pode haver poucos incentivos para as empresas de IA adotá-la. Chatbots que frequentemente admitem não saber as respostas podem parecer menos avançados ou valiosos, resultando em redução de uso e receitas para os desenvolvedores. Consequentemente, ainda vemos avisos indicando que “o ChatGPT pode cometer erros” ou que “o Gemini pode apresentar informações imprecisas.”
Em última análise, cabe a nós scrutinizar e verificar as respostas fornecidas pelos chatbots para evitar a disseminação de informações incorretas que podem causar danos. Para garantir a precisão, sempre verifique as respostas do seu chatbot.