Microsoft presenta Orca 2: Modelos de lenguaje compactos que superan a sus competidores más grandes.

Home Noticias de IA Microsoft presenta Orca 2: Modelos de lenguaje compactos que superan a sus competidores más grandes.

Updated on noviembre 20 2023

A pesar de la lucha de poder y las renuncias masivas en OpenAI, Microsoft avanza con sus ambiciones en inteligencia artificial. Hoy, la compañía presentó Orca 2, un par de pequeños modelos de lenguaje que igualan o superan significativamente a modelos mucho más grandes—cinco a diez veces su tamaño, incluyendo el Llama-2 Chat-70B de Meta—en tareas de razonamiento complejo bajo condiciones de cero disparos.

Los modelos Orca 2 están disponibles en dos tamaños: 7 mil millones y 13 mil millones de parámetros. Se basan en el modelo Orca de 13B anterior, que mostró impresionantes capacidades de razonamiento al imitar el razonamiento por pasos de modelos más grandes desarrollados meses atrás.

"Con Orca 2, demostramos que señales y métodos de entrenamiento mejorados empoderan a modelos de lenguaje más pequeños para lograr habilidades de razonamiento típicamente reservadas para sus contrapartes mucho más grandes," afirmaron los investigadores de Microsoft en un blog.

Ambos modelos han sido de código abierto para investigación adicional, permitiendo la evaluación de modelos más pequeños que pueden ofrecer un rendimiento similar a sus pares más grandes. Esta iniciativa proporciona a las empresas, especialmente aquellas con recursos limitados, una opción más accesible para satisfacer sus necesidades específicas sin requerir un gran poder de cómputo.

Enseñando a los Modelos Pequeños a Razonar

Mientras que los modelos de lenguaje grandes como GPT-4 han impresionado de manera constante con sus capacidades de razonamiento y respuesta a preguntas complejas, los modelos más pequeños históricamente han tenido deficiencias. Para cerrar esta brecha, Microsoft Research ajustó finamente los modelos base de Llama 2 utilizando un conjunto de datos sintético especializado.

En lugar de simplemente replicar el comportamiento de modelos más grandes—a una técnica común conocida como aprendizaje por imitación—los investigadores propusieron un enfoque diferente. Entrenaron a los modelos más pequeños para utilizar diversas estrategias de resolución de problemas adaptadas a distintas tareas. Por ejemplo, mientras GPT-4 puede responder consultas complejas directamente, un modelo más pequeño podría beneficiarse al descomponer la tarea en pasos manejables.

"En Orca 2, enseñamos al modelo varias técnicas de razonamiento (paso a paso, recordar y luego generar, recordar-razonar-generar, respuesta directa, etc.) y nos centramos en ayudarlo a identificar la estrategia más efectiva para cada tarea," escribieron los investigadores en su último artículo. Los datos de entrenamiento se derivaron de un modelo maestro más capaz, lo que permitió al modelo estudiante aprender cuándo y cómo aplicar diferentes enfoques de razonamiento.

Orca 2 Supera a Modelos Más Grandes

Al evaluarse en 15 referencias diversas en entornos de cero disparos—incluyendo comprensión de lenguaje, razonamiento de sentido común, razonamiento multistep, resolución de problemas matemáticos, comprensión lectora, resumido y veracidad—los modelos Orca 2 ofrecieron resultados notables, a menudo igualando o superando los niveles de rendimiento de modelos cinco a diez veces más grandes.

Los resultados promedio de las referencias indicaron que ambos modelos Orca 2 superaron a Llama-2-Chat-13B, Llama-2-Chat-70B, WizardLM-13B y WizardLM-70B, excepto en el benchmark GSM8K—un conjunto de datos de más de 8,500 problemas matemáticos de escuela primaria—donde WizardLM-70B superó a Orca.

Consideraciones para la Implementación Empresarial

Si bien estas ganancias de rendimiento son prometedoras para equipos empresariales que buscan modelos eficientes y de alto rendimiento para aplicaciones rentables, es crucial reconocer que los modelos Orca 2 pueden heredar limitaciones comunes a todos los modelos de lenguaje, así como las de su modelo base.

Microsoft enfatizó que las técnicas aplicadas para crear los modelos Orca también podrían adaptarse a otros modelos existentes. "Aunque Orca 2 tiene varias limitaciones, su potencial para avanzar en razonamiento, especialización, control y seguridad en modelos más pequeños es claro. El uso estratégico de datos sintéticos cuidadosamente filtrados es clave para estas mejoras. A medida que los modelos más grandes continúan sobresaliendo, nuestro trabajo con Orca 2 representa un paso significativo en la diversificación de aplicaciones de modelos de lenguaje," concluyó el equipo de investigación.

Futuro de los Modelos de Lenguaje Pequeños

Con la disponibilidad de los modelos Orca 2 de código abierto y la investigación continua en el campo, es evidente que más modelos de lenguaje pequeños de alto rendimiento están en camino.

Recientemente, 01.AI, una startup china fundada por el veterano de IA Kai-Fu Lee, lanzó un modelo de 34 mil millones de parámetros que destaca tanto en chino como en inglés, superando incluso a los modelos Llama 2 de 70 mil millones y Falcon de 180 mil millones. La startup también ofrece una versión más pequeña entrenada con 6 mil millones de parámetros que tiene un buen rendimiento en benchmarks establecidos de IA/ML.

Además, Mistral AI—una nueva startup con sede en París que llamó la atención por su único logo de Word Art y por haber conseguido 118 millones de dólares en una ronda semilla—ha presentado un modelo de 7 mil millones de parámetros que supera a rivales más grandes, incluyendo el Llama 2 de 13B de Meta.

AI21 asegura 53 millones de dólares adicionales para competir con OpenAI en el mercado empresarial de IA generativa.

2024: Desatando la Visión de Microsoft para la Seguridad Zero Trust Impulsada por IA

Most people like

Presentations.AI

1.5M

Presentations.AI es una innovadora aplicación impulsada por inteligencia artificial, diseñada para capacitar a los usuarios a crear presentaciones visualmente atractivas con facilidad.

Aplicación impulsada por IA AI Presentation Generator

Tarotap

45.6K

Descubre el poder transformador de las lecturas de tarot en línea con IA para desbloquear insights personales y orientación. Experimenta una mezcla única de tecnología e intuición, brindándote lecturas personalizadas al alcance de tu mano.

Lectura de tarot con IA Other

Bluedot

210.8K

Presentamos una extensión de Chrome impulsada por IA, diseñada para la toma automática de notas en reuniones. Transforma la manera en que capturas y organizas tus discusiones con esta herramienta avanzada, asegurando que nunca te pierdas un detalle crucial. Experimenta una productividad mejorada y optimiza tu flujo de trabajo con una toma de notas sin esfuerzo al alcance de tu mano.

Impulsado por IA AI Video Recording

Leap AI SEO Platform

336.8K

Desbloquea el potencial de tu presencia en línea con nuestra avanzada herramienta de SEO AI, diseñada específicamente para ayudarte a generar contenido SEO de alta calidad. Mejora la visibilidad y el compromiso de tu sitio web aprovechando algoritmos de vanguardia que analizan tendencias y optimizan tu redacción para motores de búsqueda. Crea contenido atractivo, relevante y rico en palabras clave que resuene con tu audiencia mientras mejoras tu clasificación en los resultados de búsqueda. ¡Abraza el futuro de la creación de contenido y observa cómo tu visibilidad se eleva!

Generación de Contenido SEO con IA AI Blog Writer

Find AI tools in YBX