El Impacto del Tamaño en los Modelos de Lenguaje Grande (LLMs)
En el ámbito de los modelos de lenguaje grande (LLMs), el tamaño es fundamental, ya que determina la eficacia de un modelo. Stability AI, conocida por su tecnología generativa de IA text-to-image Stable Diffusion, ha lanzado recientemente uno de sus modelos más pequeños: Stable LM 2 1.6B. Este modelo de generación de contenido textual se presentó por primera vez en abril de 2023 con versiones de 3 mil millones y 7 mil millones de parámetros. El modelo 1.6B es el segundo lanzamiento de la empresa en 2024, después de la anterior presentación del Stable Code 3B de Stability AI.
Introduciendo el Modelo Compacto Stable LM 2
El nuevo Stable LM 2 1.6B está diseñado para reducir las barreras para los desarrolladores y acelerar la participación en el ecosistema de IA generativa. Este modelo compacto pero potente admite la generación de texto multilingüe en siete idiomas: inglés, español, alemán, italiano, francés, portugués y neerlandés. Utiliza avances recientes en modelado de lenguaje algorítmico para lograr un equilibrio óptimo entre velocidad y rendimiento.
Carlos Riquelme, jefe del equipo de lenguaje en Stability AI, afirmó: "En general, los modelos más grandes entrenados con datos similares rinden mejor que los más pequeños. Sin embargo, al implementar algoritmos mejorados y entrenar con datos de calidad, a menudo vemos que los modelos más pequeños superan a sus contrapartes más grandes y antiguas."
Por qué los Modelos Más Pequeños Pueden Superar a los Más Grandes
Según Stability AI, el Stable LM 2 1.6B supera a muchos modelos de lenguaje pequeños de menos de 2 mil millones de parámetros en varios benchmarks, incluidos Phi-2 de Microsoft (2.7B), TinyLlama (1.1B) y Falcon (1B). Notablemente, también supera a versiones más grandes, como el modelo anterior Stable LM 3B de Stability AI.
"Stable LM 2 1.6B rinde mejor que algunos modelos más grandes entrenados hace solo unos meses", destacó Riquelme. "Al igual que en la tecnología informática, estamos viendo modelos que se vuelven más pequeños, delgados y mejores con el tiempo."
Reconociendo las Limitaciones
Aunque el modelo más pequeño Stable LM 2 1.6B tiene capacidades impresionantes, su tamaño conlleva algunas limitaciones. Stability AI advierte que, "debido a la naturaleza inherente de los modelos de lenguaje pequeños y de baja capacidad, el Stable LM 2 1.6B puede presentar problemas comunes como tasas más altas de alucinaciones y lenguaje potencialmente tóxico."
Transparencia y Mejora del Entrenamiento de Datos
Stability AI ha estado enfocándose en opciones de LLM más pequeñas pero potentes desde hace varios meses. En diciembre de 2023, lanzó el modelo StableLM Zephyr 3B, mejorando el rendimiento dentro de un marco más pequeño que su versión inicial.
Riquelme explicó que los nuevos modelos Stable LM 2 utilizan más datos, incorporando documentos multilingües en seis idiomas además del inglés. Destacó la importancia del orden en que se presenta la información durante el entrenamiento, sugiriendo que la variedad de tipos de datos en diferentes etapas de entrenamiento podría mejorar los resultados.
Para facilitar el desarrollo, Stability AI está lanzando estos modelos en formatos tanto preentrenados como ajustados, junto con lo que los investigadores describen como "el último punto de control del modelo antes del enfriamiento del preentrenamiento".
"Nuestra meta es proporcionar herramientas para que los desarrolladores innoven y construyan sobre nuestros modelos actuales", transmitió Riquelme. "Estamos ofreciendo un modelo específico a medio cocer para la experimentación."
Explicó el proceso de entrenamiento, indicando que a medida que el modelo se actualiza secuencialmente, su rendimiento mejora. El modelo inicial carece de conocimiento, mientras que las versiones posteriores acumulan información a partir de los datos. Sin embargo, Riquelme también indicó que los modelos pueden volverse menos flexibles hacia el final del entrenamiento.
"Decidimos proporcionar el modelo en su forma de pre-entrenamiento final para facilitar a los usuarios la especialización en diferentes tareas o conjuntos de datos. Si bien no podemos garantizar el éxito, creemos en la creatividad de las personas para utilizar nuevas herramientas de formas innovadoras."