A xAI de Elon Musk lançou seu primeiro modelo multimodal, Grok-1.5 Vision (Grok-1.5V), que pode compreender não apenas texto, mas também diversos dados visuais, como documentos, diagramas, gráficos, capturas de tela e fotografias. Esse modelo estará disponível em breve para testadores iniciais e usuários atuais do Grok.
De acordo com um post no blog da empresa, "Grok-1.5V compete com modelos multimodais líderes em vários domínios, como raciocínio multidisciplinar e compreensão visual de diagramas científicos, documentos, capturas de tela e imagens."
O anúncio segue a recente revelação do modelo de chatbot atualizado, Grok-1.5. A xAI apresentou sete exemplos que demonstram as capacidades do Grok-1.5V, incluindo a transformação de um fluxograma em código Python, a geração de uma história de ninar a partir de um desenho infantil, a explicação de memes, a conversão de tabelas em arquivos CSV e a avaliação da necessidade de substituição de decks de madeira devido à podridão.
A xAI afirma que o Grok-1.5V superou modelos concorrentes como GPT-4V, Claude 3 Sonnet, Claude 3 Opus e Gemini Pro 1.5 em várias avaliações. A empresa destaca o desempenho superior do Grok-1.5V no benchmark RealWorldQA, uma nova métrica desenvolvida para avaliar a compreensão espacial no mundo real.
O RealWorldQA foi treinado com mais de 700 imagens, cada uma emparelhada com perguntas e respostas específicas. O conjunto de dados apresenta uma variedade de imagens anonimizadas, incluindo aquelas capturadas de veículos. A xAI planeja liberar o RealWorldQA ao público sob uma licença Creative Commons.
À medida que a xAI avança, seu objetivo é rivalizar com a OpenAI e outros líderes do setor, seguindo o lançamento de seu chatbot em novembro de 2023. O lançamento do Grok-1.5V acontece pouco depois que a xAI tornou o Grok AI de código aberto. No entanto, a empresa enfrentou controvérsias, incluindo alegações de que o chatbot Grok ofereceu orientações sobre atividades ilegais.
Apesar desses desafios, a xAI permanece comprometida com o desenvolvimento de uma "inteligência geral artificial benéfica" capaz de entender o universo. A empresa anunciou que introduzirá atualizações significativas nas capacidades de compreensão e geração multimodal do Grok AI nos próximos meses.