Hugging Face presenta Idefics2: El nuevo modelo de lenguaje visual de código abierto de 8B.

Home Noticias de IA Hugging Face presenta Idefics2: El nuevo modelo de lenguaje visual de código abierto de 8B.

Hugging Face lanzó su modelo de lenguaje visual Idefics en 2023, aprovechando tecnología desarrollada inicialmente por DeepMind. La versión mejorada, Idefics2, ya está disponible en Hugging Face y presenta un tamaño de parámetro más pequeño, una licencia abierta y capacidades mejoradas de Reconocimiento Óptico de Caracteres (OCR).

Idefics, que significa Decodificador Consciente de Imágenes Mejora a la Flamingo con Atención Cruzada Intercalada, es un modelo multimodal versátil capaz de procesar tanto textos como imágenes. Mientras que el Idefics original tenía 80 mil millones de parámetros, Idefics2 ha sido optimizado a solo 8 mil millones, lo que lo hace comparable con modelos como DeepSeek-VL y LLaVA-NeXT-Mistral-7B.

Las mejoras clave en Idefics2 incluyen una manipulación avanzada de imágenes, que soporta resoluciones nativas de hasta 980 x 980 píxeles sin necesidad de redimensionar a una relación cuadrada fija, una limitación común en la visión por computadora tradicional. Las capacidades de OCR del modelo también se han fortalecido mediante la incorporación de datos derivados de la transcripción de texto en imágenes y documentos. El equipo de Hugging Face ha mejorado la capacidad de Idefics2 para responder preguntas relacionadas con gráficos, figuras y documentos.

Además, la arquitectura de Idefics2 se ha simplificado al alejarse de los mecanismos de atención cruzada controlados utilizados en su predecesor. Según Hugging Face, “Las imágenes se alimentan al codificador de visión, seguido de un agrupamiento Perceiver aprendido y una proyección de modalidad de Perceptrón Multicapa. Esta secuencia agrupada se concatena con las incrustaciones de texto para crear una secuencia intercalada de imágenes y texto.”

Para entrenar Idefics2, Hugging Face utilizó una combinación de conjuntos de datos disponibles públicamente, incluidos Mistral-7B-v0.1 y siglip-so400m-patch14-384. Los datos de entrenamiento adicionales incluyeron documentos web, pares de imágenes y descripciones, datos de OCR y recursos de imagen a código.

El lanzamiento de Idefics2 se produce en medio de un aumento de modelos multimodales en el campo de la IA, incluidos el modelo Core de Reka, el Grok-1.5V de xAI y el Imagen 2 de Google.

Cómo las colaboraciones de MongoDB con startups de IA y gigantes de la nube como AWS, Google y Microsoft están impulsando la innovación en inteligencia artificial generativa para desarrolladores.

La API Verify de Telesign aprovecha la IA y el ML para mejorar la seguridad y fomentar el crecimiento omnicanal.

Most people like

Superpowered

11.3K

Superpowered es una solución de toma de notas con inteligencia artificial para reuniones, utilizada por más de 15,000 empresas en todo el mundo. Experimenta una toma de notas fluida y mejora tu productividad con una herramienta confiable diseñada para optimizar la eficiencia de tus reuniones.

Tomador de notas de IA AI Meeting Assistant

RazorSign

6.8K

Desbloquea el poder de los contratos y las operaciones legales para crear acuerdos más inteligentes y mejorar la eficiencia. Descubre cómo la integración de estos elementos puede transformar tus procesos legales.

Gestión del ciclo de vida del contrato AI Contract Management

AI Image Generator

17K

El Generador de Imágenes con IA aprovecha la avanzada tecnología de inteligencia artificial para crear una amplia gama de variaciones visuales. Esta herramienta innovadora permite a los usuarios explorar interpretaciones visuales únicas de forma sencilla, ideal para artistas, diseñadores y entusiastas creativos. ¡Descubre hoy las infinitas posibilidades con imágenes generadas por IA!

Generador de imágenes por IA AI Art Generator

Vidful.ai: Free AI Video Generator Online

9.3K

Transforma tu texto e imágenes en videos cautivadores con el generador de videos gratuito de Vidful.ai. Impulsado por la innovadora inteligencia artificial Kuaishou Kling y Luma AI Dream Machine, esta herramienta te permite crear contenido visual impresionante de manera sencilla.

Otro Image to Video

Find AI tools in YBX