Nous Research, um grupo privado de pesquisa aplicada reconhecido por suas contribuições no campo de modelos de linguagem de grande escala (LLM), lançou um novo modelo de visão-linguagem chamado Nous Hermes 2 Vision, disponível no Hugging Face. Este modelo de código aberto é uma evolução do OpenHermes-2.5-Mistral-7B e amplia suas capacidades, permitindo que os usuários insiram imagens e extraiam informações textuais do conteúdo visual. No entanto, logo após o lançamento, foram relatados problemas de alucinação excessiva, levando a empresa a rebatizar o projeto como Hermes 2 Vision Alpha. Uma versão mais estável, com menos falhas, é esperada em breve.
Nous Hermes 2 Vision Alpha
Nomeado em homenagem ao mensageiro grego dos deuses, Hermes, este modelo de visão é projetado para navegar as complexidades do discurso humano com precisão notável. Ele integra os dados visuais fornecidos pelos usuários com seu conhecimento adquirido, permitindo respostas detalhadas e em linguagem natural. Por exemplo, o cofundador da Nous, conhecido como Teknium no X, compartilhou uma captura de tela demonstrando a capacidade do modelo de analisar uma imagem de um hambúrguer, avaliando suas implicações para a saúde.
Características Distintivas do Nous Hermes 2 Vision
Embora o ChatGPT, baseado no GPT-4V, também suporte a entrada de imagens, o Nous Hermes 2 Vision se destaca por duas melhorias principais:
1. Arquitetura Leve: Em vez de depender de codificadores de visão tradicionais de 3B, o Nous Hermes 2 Vision utiliza o SigLIP-400M. Isso simplifica a arquitetura do modelo, tornando-o mais leve e melhorando o desempenho em tarefas de visão-linguagem.
2. Capacidade de Chamada de Função: O modelo foi treinado em um conjunto de dados personalizado que inclui chamadas de função. Os usuários podem utilizar uma...