2023: Un Año Histórico para los Modelos de Lenguaje de Código Abierto (LLMs)

La aparición de ChatGPT a finales de 2022 desató una carrera competitiva entre empresas de IA y gigantes tecnológicos, todos con el objetivo de liderar el creciente mercado de los modelos de lenguaje de gran tamaño (LLMs). En respuesta a esta feroz competencia, muchas firmas optaron por ofrecer sus modelos de lenguaje como servicios propietarios, brindando acceso a API mientras ocultaban los pesos del modelo y detalles sobre sus conjuntos de datos y metodologías de entrenamiento.

Contrario a la tendencia de los modelos propietarios, 2023 vio un notable crecimiento en el ecosistema de LLM de código abierto, evidenciado por la liberación de modelos que pueden descargarse y personalizarse para aplicaciones específicas. Este desarrollo ha consolidado el código abierto como un jugador importante en el panorama de los LLM, manteniendo efectivamente el ritmo con las soluciones propietarias.

¿Es Mejor lo Grande?

Antes de 2023, se creía comúnmente que aumentar el tamaño de los LLM era fundamental para mejorar el rendimiento. Modelos de código abierto como BLOOM y OPT, comparables al GPT-3 de OpenAI con sus 175 mil millones de parámetros, ejemplificaron este enfoque. Sin embargo, estos modelos grandes requerían recursos computacionales y experiencia sustancial para funcionar de manera efectiva.

Este paradigma cambió drásticamente en febrero de 2023 cuando Meta lanzó Llama, una serie de modelos que oscilan entre 7 y 65 mil millones de parámetros. Llama demostró que modelos más pequeños podían igualar el rendimiento de sus contrapartes más grandes, respaldando la afirmación de que el tamaño del modelo no es el único factor determinante de su eficacia.

La clave del éxito de Llama residió en su entrenamiento con un conjunto de datos mucho más grande. Mientras que GPT-3 utilizó alrededor de 300 mil millones de tokens, los modelos de Llama ingirieron hasta 1.4 billones de tokens, demostrando que entrenar modelos más pequeños en un conjunto de datos de tokens más amplio podía ser un enfoque poderoso.

Las Ventajas de los Modelos de Código Abierto

La popularidad de Llama se debió a dos ventajas principales: su capacidad de funcionar en una sola GPU y su lanzamiento como código abierto. Esta accesibilidad permitió a la comunidad de investigación construir rápidamente sobre su arquitectura y hallazgos, lo que llevó a la aparición de varios LLM destacados de código abierto, incluyendo Cerebras-GPT de Cerebras, Pythia de EleutherAI, MPT de MosaicML, X-GEN de Salesforce y Falcon de TIIUAE.

En julio de 2023, Meta lanzó Llama 2, que rápidamente se convirtió en la base para numerosos modelos derivados. Mistral.AI también causó sensación con la introducción de sus dos modelos—Mistral y Mixtral—recibiendo elogios por su rendimiento y rentabilidad.

“Desde el lanzamiento del Llama original, el panorama de LLM de código abierto se ha acelerado, con Mixtral ahora reconocido como el tercer modelo más útil en evaluaciones humanas, después de GPT-4 y Claude,” afirmó Jeff Boudier, Jefe de Producto y Crecimiento en Hugging Face.

Modelos adicionales como Alpaca, Vicuna, Dolly y Koala se desarrollaron utilizando estos modelos fundamentales, adaptados para aplicaciones específicas. Los datos de Hugging Face revelan que los desarrolladores han creado miles de bifurcaciones y versiones especializadas. Notablemente, hay más de 14,500 resultados para “Llama,” 3,500 para “Mistral,” y 2,400 para “Falcon.” A pesar de su lanzamiento en diciembre de 2023, Mixtral ya ha servido como base para 150 proyectos.

La naturaleza de código abierto de estos modelos fomenta la innovación al permitir a los desarrolladores crear nuevos modelos y combinar los existentes en diversas configuraciones, mejorando la practicidad de los LLM.

El Futuro de los Modelos de Código Abierto

A medida que los modelos propietarios continúan evolucionando, la comunidad de código abierto sigue siendo un competidor formidable. Los gigantes tecnológicos están incorporando cada vez más modelos de código abierto en sus productos, reconociendo su valor. Microsoft, un respaldo principal de OpenAI, ha lanzado dos modelos de código abierto, Orca y Phi-2, y ha mejorado la integración de modelos de código abierto en su plataforma Azure AI Studio. Del mismo modo, Amazon ha introducido Bedrock, un servicio en la nube diseñado para alojar tanto modelos propietarios como de código abierto.

“En 2023, muchas empresas se sorprendieron por las capacidades de los LLM, particularmente tras el éxito de ChatGPT,” señaló Boudier. “Los CEOs encargaron a sus equipos definir casos de uso de Inteligencia Artificial Generativa, lo que llevó a una rápida experimentación y aplicaciones de prueba de concepto utilizando APIs de modelos cerrados.”

Sin embargo, depender de APIs externas para tecnologías críticas plantea riesgos, incluyendo la posible exposición del código fuente sensible y datos de clientes—una estrategia a largo plazo insostenible para empresas centradas en la privacidad y seguridad de los datos.

El ecosistema emergente de código abierto ofrece un camino prometedor para las empresas que buscan implementar inteligencia artificial generativa mientras abordan necesidades de privacidad y cumplimiento.

“A medida que la IA transforma el desarrollo tecnológico, al igual que con innovaciones pasadas, las organizaciones deberán crear y gestionar soluciones de IA internamente, asegurando la privacidad, la seguridad y el cumplimiento normativo requeridos para la información de los clientes,” concluyó Boudier. “Basado en tendencias históricas, esto probablemente significará adoptar el código abierto.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles