Modelo de Visão AI Open-Source Emergente Desafia o ChatGPT: Principais Questões a Considerar

Nous Research, um grupo privado de pesquisa aplicada reconhecido por suas contribuições no campo de modelos de linguagem de grande escala (LLM), lançou um novo modelo de visão-linguagem chamado Nous Hermes 2 Vision, disponível no Hugging Face. Este modelo de código aberto é uma evolução do OpenHermes-2.5-Mistral-7B e amplia suas capacidades, permitindo que os usuários insiram imagens e extraiam informações textuais do conteúdo visual. No entanto, logo após o lançamento, foram relatados problemas de alucinação excessiva, levando a empresa a rebatizar o projeto como Hermes 2 Vision Alpha. Uma versão mais estável, com menos falhas, é esperada em breve.

Nous Hermes 2 Vision Alpha

Nomeado em homenagem ao mensageiro grego dos deuses, Hermes, este modelo de visão é projetado para navegar as complexidades do discurso humano com precisão notável. Ele integra os dados visuais fornecidos pelos usuários com seu conhecimento adquirido, permitindo respostas detalhadas e em linguagem natural. Por exemplo, o cofundador da Nous, conhecido como Teknium no X, compartilhou uma captura de tela demonstrando a capacidade do modelo de analisar uma imagem de um hambúrguer, avaliando suas implicações para a saúde.

Características Distintivas do Nous Hermes 2 Vision

Embora o ChatGPT, baseado no GPT-4V, também suporte a entrada de imagens, o Nous Hermes 2 Vision se destaca por duas melhorias principais:

1. Arquitetura Leve: Em vez de depender de codificadores de visão tradicionais de 3B, o Nous Hermes 2 Vision utiliza o SigLIP-400M. Isso simplifica a arquitetura do modelo, tornando-o mais leve e melhorando o desempenho em tarefas de visão-linguagem.

2. Capacidade de Chamada de Função: O modelo foi treinado em um conjunto de dados personalizado que inclui chamadas de função. Os usuários podem utilizar uma...

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles