Un nuevo modelo de aprendizaje automático desarrollado por investigadores de Meta y la Universidad del Sur de California aborda desafíos clave asociados con la arquitectura Transformer, que ha sido fundamental en el avance de los grandes modelos de lenguaje (LLMs). El modelo, denominado Megalodon, amplía significativamente la ventana de contexto a millones de tokens, minimizando al mismo tiempo el uso de memoria. Los experimentos indican que Megalodon supera a los modelos Transformer comparables en el manejo de textos extensos, posicionándose como un potencial sucesor de la arquitectura Transformer.
Entendiendo las Ventanas de Contexto
La "ventana de contexto" se refiere al número de tokens que un modelo puede procesar simultáneamente. Una ventana de contexto más amplia mejora la capacidad del LLM para participar en conversaciones más largas, analizar documentos extensos y optimizar el aprendizaje en contexto. Sin embargo, aumentar la ventana de contexto de un Transformer conlleva un costo computacional considerable.
El Transformer opera con “complejidad cuadrática”, lo que significa que duplicar el tamaño de entrada cuadruplica tanto la memoria como el tiempo de cómputo necesarios. Esta relación proviene del mecanismo de auto-atención, donde cada elemento de la secuencia de entrada se compara entre sí.
El Megalodon de Meta se basa en la técnica de Atención de Gated Moving Average (MEGA) introducida en 2022, que optimiza el mecanismo de atención, reduciendo significativamente la complejidad del modelo. Esto permite al LLM manejar entradas más largas sin demandas excesivas de memoria. MEGA incorpora un promedio móvil exponencial (EMA) para equilibrar la importancia de las relaciones de tokens locales y a larga distancia, asegurando la coherencia a medida que se expande el contexto.
Innovaciones Clave en Megalodon
Megalodon mejora MEGA a través de varias modificaciones arquitectónicas que alinean su rendimiento con el mecanismo de atención completa tradicional de los Transformers. Utiliza "atención por bloques", dividiendo las secuencias de entrada en bloques fijos, transformando la complejidad de cuadrática a lineal. Este enfoque también facilita un paralelismo adicional, acelerando el entrenamiento del modelo.
Los investigadores entrenaron una versión de Megalodon con 7 mil millones de parámetros en 2 billones de tokens, comparándola con los modelos Llama-2-7B y 13B. Los resultados muestran que Megalodon-7B supera a los Transformers de vanguardia utilizados para entrenar Llama-2-7B en términos de perplejidad de entrenamiento y en diversas tareas posteriores. Notablemente, en algunos casos, iguala el rendimiento de Llama-2-13B.
Si bien Megalodon mantiene una ventana de contexto de 4,000 tokens a un ritmo ligeramente más lento que Llama-2, sobresale significativamente con una longitud de contexto de 32,000 tokens gracias a la eficiencia computacional mejorada. Los hallazgos experimentales iniciales sugieren que Megalodon puede modelar secuencias de longitudes indefinidas de manera efectiva.
El equipo de investigación también ha observado resultados prometedores en experimentos a menor escala a través de diferentes modalidades de datos y planea adaptar Megalodon para aplicaciones multimodales. El código de Megalodon está disponible en GitHub bajo una licencia MIT, permitiendo su adaptación y uso comercial sin restricciones.
La Dominancia de los Transformers
A pesar de la exploración continua de arquitecturas alternativas, como Mamba (utilizada comercialmente por AI21 Labs) y redes neuronales líquidas desarrolladas en MIT, los Transformers siguen siendo la arquitectura líder para modelos de lenguaje. Meta continúa innovando con modelos como Megalodon, al mismo tiempo que mejora su línea de Transformers, incluida la reciente publicación de Llama-3.
Adaptar nuevas arquitecturas para igualar el amplio ecosistema de herramientas y bibliotecas disponibles para Transformers supone un desafío. Estas herramientas facilitan el entrenamiento de modelos, ajustes finos y optimizaciones para diversas aplicaciones y dispositivos, otorgando a los Transformers una ventaja constante.
Los investigadores también están modificando la arquitectura Transformer para aliviar sus demandas computacionales. Por ejemplo, la Infini-attention de Google busca soportar ventanas de contexto ilimitadas sin aumentar las necesidades de memoria, con modelos actuales capaces de manejar entradas de cientos de miles de tokens.
A medida que la investigación en inteligencia artificial evoluciona rápidamente, es crucial reconocer que el panorama es dinámico. Cuando se introdujo el Transformer en 2017, pocos anticiparon su profunda influencia. Los modelos futuros podrían superar al Transformer en capacidad.