A pesar de la lucha de poder y las renuncias masivas en OpenAI, Microsoft avanza con sus ambiciones en inteligencia artificial. Hoy, la compañía presentó Orca 2, un par de pequeños modelos de lenguaje que igualan o superan significativamente a modelos mucho más grandes—cinco a diez veces su tamaño, incluyendo el Llama-2 Chat-70B de Meta—en tareas de razonamiento complejo bajo condiciones de cero disparos.
Los modelos Orca 2 están disponibles en dos tamaños: 7 mil millones y 13 mil millones de parámetros. Se basan en el modelo Orca de 13B anterior, que mostró impresionantes capacidades de razonamiento al imitar el razonamiento por pasos de modelos más grandes desarrollados meses atrás.
"Con Orca 2, demostramos que señales y métodos de entrenamiento mejorados empoderan a modelos de lenguaje más pequeños para lograr habilidades de razonamiento típicamente reservadas para sus contrapartes mucho más grandes," afirmaron los investigadores de Microsoft en un blog.
Ambos modelos han sido de código abierto para investigación adicional, permitiendo la evaluación de modelos más pequeños que pueden ofrecer un rendimiento similar a sus pares más grandes. Esta iniciativa proporciona a las empresas, especialmente aquellas con recursos limitados, una opción más accesible para satisfacer sus necesidades específicas sin requerir un gran poder de cómputo.
Enseñando a los Modelos Pequeños a Razonar
Mientras que los modelos de lenguaje grandes como GPT-4 han impresionado de manera constante con sus capacidades de razonamiento y respuesta a preguntas complejas, los modelos más pequeños históricamente han tenido deficiencias. Para cerrar esta brecha, Microsoft Research ajustó finamente los modelos base de Llama 2 utilizando un conjunto de datos sintético especializado.
En lugar de simplemente replicar el comportamiento de modelos más grandes—a una técnica común conocida como aprendizaje por imitación—los investigadores propusieron un enfoque diferente. Entrenaron a los modelos más pequeños para utilizar diversas estrategias de resolución de problemas adaptadas a distintas tareas. Por ejemplo, mientras GPT-4 puede responder consultas complejas directamente, un modelo más pequeño podría beneficiarse al descomponer la tarea en pasos manejables.
"En Orca 2, enseñamos al modelo varias técnicas de razonamiento (paso a paso, recordar y luego generar, recordar-razonar-generar, respuesta directa, etc.) y nos centramos en ayudarlo a identificar la estrategia más efectiva para cada tarea," escribieron los investigadores en su último artículo. Los datos de entrenamiento se derivaron de un modelo maestro más capaz, lo que permitió al modelo estudiante aprender cuándo y cómo aplicar diferentes enfoques de razonamiento.
Orca 2 Supera a Modelos Más Grandes
Al evaluarse en 15 referencias diversas en entornos de cero disparos—incluyendo comprensión de lenguaje, razonamiento de sentido común, razonamiento multistep, resolución de problemas matemáticos, comprensión lectora, resumido y veracidad—los modelos Orca 2 ofrecieron resultados notables, a menudo igualando o superando los niveles de rendimiento de modelos cinco a diez veces más grandes.
Los resultados promedio de las referencias indicaron que ambos modelos Orca 2 superaron a Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B y WizardLM-70B, excepto en el benchmark GSM8K—un conjunto de datos de más de 8,500 problemas matemáticos de escuela primaria—donde WizardLM-70B superó a Orca.
Consideraciones para la Implementación Empresarial
Si bien estas ganancias de rendimiento son prometedoras para equipos empresariales que buscan modelos eficientes y de alto rendimiento para aplicaciones rentables, es crucial reconocer que los modelos Orca 2 pueden heredar limitaciones comunes a todos los modelos de lenguaje, así como las de su modelo base.
Microsoft enfatizó que las técnicas aplicadas para crear los modelos Orca también podrían adaptarse a otros modelos existentes. "Aunque Orca 2 tiene varias limitaciones, su potencial para avanzar en razonamiento, especialización, control y seguridad en modelos más pequeños es claro. El uso estratégico de datos sintéticos cuidadosamente filtrados es clave para estas mejoras. A medida que los modelos más grandes continúan sobresaliendo, nuestro trabajo con Orca 2 representa un paso significativo en la diversificación de aplicaciones de modelos de lenguaje," concluyó el equipo de investigación.
Futuro de los Modelos de Lenguaje Pequeños
Con la disponibilidad de los modelos Orca 2 de código abierto y la investigación continua en el campo, es evidente que más modelos de lenguaje pequeños de alto rendimiento están en camino.
Recientemente, 01.AI, una startup china fundada por el veterano de IA Kai-Fu Lee, lanzó un modelo de 34 mil millones de parámetros que destaca tanto en chino como en inglés, superando incluso a los modelos Llama 2 de 70 mil millones y Falcon de 180 mil millones. La startup también ofrece una versión más pequeña entrenada con 6 mil millones de parámetros que tiene un buen rendimiento en benchmarks establecidos de IA/ML.
Además, Mistral AI—una nueva startup con sede en París que llamó la atención por su único logo de Word Art y por haber conseguido 118 millones de dólares en una ronda semilla—ha presentado un modelo de 7 mil millones de parámetros que supera a rivales más grandes, incluyendo el Llama 2 de 13B de Meta.