Nous Research, un groupe de recherche appliquée reconnu pour ses contributions dans le domaine des modèles de langage de grande taille (LLM), a lancé un nouveau modèle de vision-langage nommé Nous Hermes 2 Vision, disponible sur Hugging Face. Ce modèle open-source s'appuie sur l'OpenHermes-2.5-Mistral-7B, tout en élargissant ses capacités permettant aux utilisateurs d'entrer des images et d’extraire des informations textuelles à partir de contenus visuels. Cependant, peu après son lancement, des utilisateurs ont signalé des problèmes d'hallucinations excessives, ce qui a conduit l'entreprise à renommer le projet en Hermes 2 Vision Alpha. Une version plus stable, avec moins de bugs, est attendue prochainement.
Nous Hermes 2 Vision Alpha
Nommé d'après le messager des dieux grecs, Hermès, ce modèle de vision est conçu pour naviguer dans les complexités du discours humain avec une précision remarquable. Il intègre les données visuelles fournies par les utilisateurs avec ses connaissances apprises, ce qui lui permet de fournir des réponses détaillées en langage naturel. Par exemple, le co-fondateur de Nous, connu sous le nom de Teknium sur X, a partagé une capture d'écran démontrant la capacité du modèle à analyser une image de burger, évaluant ainsi ses implications sur la santé.
Caractéristiques Distinctives de Nous Hermes 2 Vision
Bien que ChatGPT, basé sur GPT-4V, prenne également en charge les images, Nous Hermes 2 Vision se distingue par deux améliorations principales :
1. Architecture Légère : Au lieu de se fier aux encodeurs de vision traditionnels de 3B, Nous Hermes 2 Vision utilise SigLIP-400M. Cela simplifie non seulement l'architecture du modèle, mais améliore également les performances sur les tâches de vision-langage.
2. Capacité d'Appel de Fonction : Le modèle a été entraîné sur un ensemble de données personnalisé intégrant des appels de fonction. Les utilisateurs peuvent...