Apenas algumas semanas após o lançamento do Grok-1 como código aberto, a xAI de Elon Musk está prestes a lançar uma versão aprimorada de seu modelo de linguagem proprietário (LLM) — o Grok-1.5, na próxima semana. O Grok-1.5 tem como objetivo melhorar as capacidades de raciocínio e resolução de problemas, aproximando seu desempenho de modelos consolidados como o GPT-4 da OpenAI e Claude 3 da Anthropic. Embora consiga lidar com contextos longos, ainda fica atrás do Gemini 1.5 Pro, que suporta uma janela de contexto de até 1 milhão de tokens.
Novidades do Grok-1.5
Anunciado inicialmente em novembro passado, o Grok-1 foi inspirado em "O Guia do Mochileiro das Galáxias" e projetado para ajudar os usuários em sua busca por conhecimento, independentemente de suas origens ou posições políticas. Em benchmarks anteriores, o Grok-1 superou o Llama-2-70B e o GPT-3.5.
Com o Grok-1.5, a xAI afirma ter feito melhorias notáveis em métricas chave. Em testes, o Grok-1.5 obteve uma pontuação de 50,6% no benchmark MATH, 90% no GSM8K e 74,1% no HumanEval, demonstrando avanços significativos em tarefas relacionadas a programação e matemática. Além disso, alcançou 81,3% no benchmark MMLU, refletindo uma melhoria considerável em relação aos 73% do Grok-1. Com uma janela de contexto de até 128.000 tokens, o Grok-1.5 pode processar informações 16 vezes mais do que seu predecessor, tornando-se eficiente na análise e resumo de documentos extensos enquanto mantém uma boa capacidade de seguir instruções.
Concorrência com Modelos Líderes
O Grok-1.5 não apenas supera o Grok-1, mas também reduz a diferença de desempenho em relação a modelos líderes como Gemini 1.5 Pro, GPT-4 e Claude 3. Por exemplo, sua pontuação de 81,3% no MMLU ultrapassa a recém-lançada Mistral Large, mas ainda está atrás dos 83,7% do Gemini 1.5 Pro, 86,4% do GPT-4 e 86,8% do Claude 3 Opus. No benchmark GSM8K, também fica ligeiramente atrás das ofertas da Google, OpenAI e Anthropic. Notavelmente, o Grok-1.5 se destaca no HumanEval, superando todos os modelos, exceto o Claude 3 Opus. Brian Roemmele, consultor de tecnologia, prevê que o Grok-2, atualmente em treinamento, deve se estabelecer como uma das plataformas de IA LLM mais poderosas, superando a OpenAI em várias métricas.
Disponibilidade do Grok-1.5
A xAI planeja lançar o Grok-1.5 na próxima semana, começando com testadores iniciais e usuários do chatbot Grok na plataforma X (anteriormente Twitter). O lançamento será gradual, introduzindo novos recursos, incluindo um potencial "modo divertido," enquanto expande o acesso a mais usuários. A liberação inicial do Grok na X foi parte de uma estratégia para aumentar a adoção tanto do Grok quanto da plataforma X. O Grok está atualmente disponível por meio da assinatura ‘Premium+’ da plataforma, por US$ 16/mês, mas Musk anunciou recentemente que também estará acessível a todos os assinantes Premium de US$ 8/mês. Além disso, seguidores verificados em certos níveis de assinatura receberão benefícios Premium, incluindo acesso gratuito ao Grok.