Modelo de Visión de IA de Código Abierto Desafía a ChatGPT: Aspectos Clave a Considerar

Nous Research, un grupo privado de investigación aplicada reconocido por sus contribuciones al campo de los modelos de lenguaje de gran tamaño (LLM), ha lanzado un nuevo modelo de visión-lenguaje denominado Nous Hermes 2 Vision, disponible en Hugging Face. Este modelo de código abierto se basa en el anterior OpenHermes-2.5-Mistral-7B y amplía sus capacidades al permitir a los usuarios ingresar imágenes y extraer información textual del contenido visual. Sin embargo, poco después de su lanzamiento, los usuarios informaron sobre problemas de alucinaciones excesivas, lo que llevó a la empresa a renombrar el proyecto como Hermes 2 Vision Alpha. Se espera que pronto se lance una versión más estable con menos fallos.

Nous Hermes 2 Vision Alpha

Nombrado en honor al mensajero griego de los dioses, Hermes, este modelo de visión está diseñado para navegar por las complejidades del discurso humano con notable precisión. Integra los datos visuales proporcionados por los usuarios con su conocimiento aprendido, lo que le permite ofrecer respuestas detalladas en lenguaje natural. Por ejemplo, el cofundador de Nous, conocido como Teknium en X, compartió una captura de pantalla que demuestra la capacidad del modelo para analizar una imagen de una hamburguesa, evaluando sus implicaciones para la salud.

Características Distintivas de Nous Hermes 2 Vision

Mientras ChatGPT, basado en GPT-4V, también admite la entrada de imágenes, Nous Hermes 2 Vision se distingue por dos mejoras principales:

1. Arquitectura Ligera: En lugar de depender de codificadores de visión tradicionales de 3B, Nous Hermes 2 Vision utiliza SigLIP-400M. Esto no solo simplifica la arquitectura del modelo, haciéndolo más ligero, sino que también mejora el rendimiento en tareas de visión-lenguaje.

2. Capacidad de Llamada a Funciones: El modelo ha sido entrenado en un conjunto de datos personalizado que incluye llamadas a funciones, permitiendo a los usuarios utilizar una…

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles