Oh, Google. Você algum dia lançará um produto de IA com sucesso na primeira tentativa?
Menos de um mês após lançar o Gemini, seu tão aguardado concorrente do ChatGPT, o Google enfrentou críticas significativas devido a interações ensaiadas confirmadas em sua demonstração promocional. Pesquisas recentes mostram que a versão mais avançada disponível ao consumidor, Gemini Pro, fica atrás do modelo de linguagem GPT-3.5 Turbo da OpenAI na maioria das tarefas.
Os resultados, apresentados por uma equipe da Carnegie Mellon University e BerriAI em seu artigo “Uma Análise Profunda das Habilidade Linguísticas do Gemini”, revelam que o Gemini Pro apresenta um desempenho ligeiramente inferior ao GPT-3.5 Turbo em várias atividades. O estudo, publicado em arXiv.org, destaca que, em 19 de dezembro de 2023, a precisão do Gemini Pro era notavelmente menos impressionante do que a do modelo mais antigo da OpenAI.
Um porta-voz do Google respondeu, afirmando que pesquisas internas demonstram que o Gemini Pro supera o GPT-3.5 e que uma versão mais poderosa, o Gemini Ultra, será lançada no início de 2024, com desempenho superior ao do GPT-4 em testes internos. Eles afirmaram: “O Gemini Pro supera modelos otimizados para inferência, como o GPT-3.5, e desempenha de forma comparável a outros modelos líderes.”
Os pesquisadores testaram quatro modelos de linguagem: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo e Mistral Mixtral 8x7B. Eles utilizaram o site agregador de IA, LiteLLM, para avaliar os modelos ao longo de quatro dias, empregando várias solicitações, incluindo 57 perguntas de múltipla escolha nas áreas de STEM, humanidades e ciências sociais.
No teste de perguntas e respostas baseado em conhecimento, o Gemini Pro obteve 64,12/60,63, enquanto o GPT-3.5 Turbo alcançou 67,75/70,07 e o GPT-4 Turbo registrou 80,48/78,95. Notavelmente, o Gemini favoreceu consistentemente a opção de resposta “D”, indicando um viés potencialmente devido à falta de ajuste para formatos de múltipla escolha. Além disso, teve dificuldades em categorias específicas, como sexualidade humana e lógica formal, devido a restrições de respostas de segurança.
O Gemini Pro superou o GPT-3.5 Turbo em questões de microeconomia de ensino médio e segurança; no entanto, esses ganhos foram mínimos. Ao testar consultas mais longas ou complexas, o Gemini Pro mostrou menor precisão em comparação com ambos os modelos GPT, embora tenha se destacado em tarefas de classificação de palavras e manipulação de símbolos.
Em capacidades de programação, o Gemini novamente apresentou deficiências, apresentando desempenho inferior ao do GPT-3.5 Turbo ao completar tarefas de código em Python. Embora o Gemini Pro tenha mostrado potencial em tradução de idiomas - superando o GPT-3.5 Turbo e o GPT-4 Turbo em várias línguas - também exibiu uma tendência de bloquear respostas em muitos pares de idiomas devido à moderação de conteúdo.
As implicações desses achados são significativas para as ambições de IA do Google. À medida que a chegada do Gemini Ultra se aproxima, o Google pode continuar a ficar atrás da OpenAI em desempenho de IA generativa. Curiosamente, a pesquisa também indicou que a Mixtral 8x7B da Mistral teve desempenho inferior ao do GPT-3.5 Turbo em várias tarefas, sugerindo que, embora o Gemini Pro não seja o melhor, ainda supera alguns concorrentes emergentes.
No geral, o estudo reforça a ideia de que a OpenAI atualmente mantém sua liderança na paisagem de IA generativa. Como observou especialistas como o professor Ethan Mollick, da Universidade da Pensilvânia, para a maioria das aplicações individuais, o GPT-4 continua sendo a escolha superior - pelo menos até que o Gemini Ultra seja lançado no próximo ano.