Hoje, a Inflection AI, a startup de Palo Alto co-fundada por Mustafa Suleyman, da DeepMind, e Reid Hoffman, do LinkedIn, apresentou seu mais recente modelo de base, o Inflection-2.5.
Construído sobre seu antecessor, o Inflection-2.5 melhora significativamente o desempenho, rivalizando de perto com o GPT-4 da OpenAI, especialmente em disciplinas STEM. Este novo modelo alimenta o assistente Pi da empresa, que compete com o ChatGPT e o Gemini, e está disponível nas plataformas móvel e web.
Avanço na Competição de IA
Este lançamento representa um movimento estratégico no dinâmico cenário de IA, onde as empresas buscam constantemente desafiar a dominância da OpenAI. Recentemente, a Anthropic introduziu o Claude 3 Opus, um avanço significativo que supera o desempenho do GPT-4.
Inflection-2.5: Visão Geral de Desempenho
Desde seu lançamento, a Inflection AI tem como objetivo criar uma IA “empática, útil e segura”, oferecendo uma experiência de conversa mais pessoal em comparação com outros modelos, incluindo os da série GPT. A nova técnica de ajuste empático confere ao Pi uma personalidade distinta e um alto coeficiente emocional (EQ).
Com o Inflection-2.5, a startup visa aumentar o QI do modelo, especialmente em áreas como física e matemática. Os usuários agora podem interagir com o Pi sobre uma ampla gama de tópicos, desde hobbies até programação, trabalhos de biologia e planejamento de negócios.
Desempenho em Benchmarks
Em avaliações de benchmark, o Inflection-2.5 apresenta melhorias significativas em relação ao Inflection-1 e reduz a distância em relação ao GPT-4, embora ainda fique atrás. Por exemplo, no benchmark MMLU, que avalia uma variedade de tarefas, o Inflection-2.5 obteve 85,5, enquanto o GPT-4 alcançou 87,3. Em exames de STEM, ele obteve 63 no exame de matemática húngaro, em comparação com 68 do GPT-4, e alcançou o 85º percentil no GRE de Física, enquanto o GPT-4 obteve o 97º percentil.
No benchmark GSM8K, que contém 8.500 problemas de matemática de alta qualidade para o ensino fundamental, o Inflection-2.5 marcou 86,3, comparado aos 92 do GPT-4. No teste HumanEval de zero-shot, que avalia habilidades de programação, obteve uma pontuação de 73,8 contra 79,3 do GPT-4.
Treinamento Eficiente e Capacidades em Tempo Real
Embora não supere o desempenho do GPT-4, a Inflection AI enfatizou que o Inflection-2.5 alcança "94% do desempenho do GPT-4" com um processo de treinamento mais eficiente, utilizando apenas 40% da capacidade de treinamento usada para o GPT-4.
Assim como o GPT-4, o Inflection-2.5 incorpora capacidades de busca na web em tempo real, fornecendo aos usuários informações atualizadas sobre eventos atuais, um avanço significativo para o assistente Pi, projetado para ser acessível a todos. No entanto, é importante notar que a qualidade dos resultados obtidos na web pode variar, uma vez que não existem benchmarks que avaliem esse aspecto.
Como Acessar o Inflection-2.5
A Inflection AI já integrou o novo modelo em seu chatbot Pi, permitindo que os usuários testem suas capacidades imediatamente. Embora a empresa não tenha detalhado benefícios específicos para os usuários com essa atualização, destacou um impacto positivo no sentimento, engajamento, retenção e crescimento orgânico geral do chatbot.
Atualmente, o chatbot Pi, disponível para Android, iOS, web e desktop, conta com um milhão de usuários ativos diários e seis milhões mensais, com mais de quatro bilhões de mensagens trocadas e uma duração média de conversa de 33 minutos.