Llama 3.2 de Meta: Una Nueva Era en la IA Multimodal
Hoy, durante Meta Connect, la compañía presentó Llama 3.2, su primer modelo de visión importante que integra la comprensión de imágenes y texto.
Llama 3.2 incluye modelos pequeños y medianos (11B y 90B parámetros) y modelos solo de texto más ligeros (1B y 3B parámetros), optimizados para dispositivos móviles y de edge.
"Este es nuestro primer modelo multimodal de código abierto", proclamó el CEO de Meta, Mark Zuckerberg, durante su discurso. "Permitirá una amplia variedad de aplicaciones que requieren comprensión visual."
Al igual que su predecesor, Llama 3.2 ofrece una extensa longitud de contexto de 128,000 tokens, permitiendo la entrada de texto sustancial, equivalente a cientos de páginas de libros de texto. Un mayor número de parámetros normalmente mejora la precisión del modelo y su capacidad para manejar tareas complejas.
Meta también presentó hoy distribuciones oficiales de Llama stack, permitiendo a los desarrolladores utilizar estos modelos en diversos entornos, incluyendo configuraciones locales, en dispositivos, en la nube y de un solo nodo.
“El código abierto es —y seguirá siendo— la opción más rentable, personalizable y confiable disponible”, afirmó Zuckerberg. “Hemos alcanzado un punto de inflexión en la industria; se está convirtiendo en el estándar, similar a lo que fue Linux para la IA.”
Competencia con Claude y GPT-4o
Apenas dos meses después del lanzamiento de Llama 3.1, Meta informa un crecimiento diez veces mayor en sus capacidades.
“Llama continúa avanzando rápidamente,” señaló Zuckerberg. “Está desbloqueando una gama creciente de funcionalidades.”
Los dos modelos más grandes de Llama 3.2 (11B y 90B) ahora soportan la usabilidad de imágenes, permitiéndoles interpretar gráficos, generar descripciones de imágenes e identificar objetos a partir de indicaciones en lenguaje natural. Por ejemplo, los usuarios pueden preguntar sobre el mes de mayores ventas de su empresa, y el modelo puede deducir una respuesta usando gráficos disponibles. Los modelos más grandes pueden extraer información de imágenes para crear descripciones detalladas.
Los modelos ligeros facilitan el desarrollo de aplicaciones personalizadas para uso privado, como resumir comunicaciones recientes o gestionar invitaciones de calendario para reuniones de seguimiento.
Meta afirma que Llama 3.2 es competitivo con Claude 3 Haiku de Anthropic y GPT-4o-mini de OpenAI en tareas de reconocimiento de imágenes y comprensión visual. Notablemente, supera a competidores como Gemma y Phi 3.5-mini en seguimiento de instrucciones, resumen, uso de herramientas y reescritura de indicaciones.
Los modelos de Llama 3.2 están disponibles para descarga en llama.com, Hugging Face y en las plataformas asociadas de Meta.
Expansión de AI Empresarial y Características Atractivas para Consumidores
Meta también está mejorando su AI empresarial, permitiendo a las empresas utilizar anuncios de clic-a-mensaje en WhatsApp y Messenger. Esto incluye el desarrollo de agentes capaces de responder preguntas comunes, discutir detalles de productos y completar compras.
La compañía reporta que más de 1 millón de anunciantes están utilizando sus herramientas de IA generativa, resultando en 15 millones de anuncios creados en el último mes. En promedio, las campañas publicitarias que utilizan la IA generativa de Meta experimentan un aumento del 11% en las tasas de clics y un incremento del 7.6% en las tasas de conversión.
Para los consumidores, Meta AI está adquiriendo una “voz”, específicamente varias voces de celebridades, incluyendo a Dame Judi Dench, John Cena, Keegan-Michael Key, Kristen Bell y Awkwafina.
“Creo que la voz será una forma más natural de interactuar con la IA que el texto”, afirmó Zuckerberg. “Simplemente es mucho mejor.”
El modelo puede responder a comandos de voz o texto en voces de celebridades en plataformas como WhatsApp, Messenger, Facebook e Instagram. Meta AI también responderá a fotos compartidas, con la capacidad de editar imágenes al agregar o modificar fondos. Además, Meta está experimentando con nuevas herramientas de traducción, doblaje de videos y sincronización labial para Meta AI.
Zuckerberg reafirmó que Meta AI está en camino de convertirse en el asistente más utilizado a nivel mundial, afirmando: “Probablemente ya lo es.”