Arquitectura Transformadora Revolucionaria: Desbloqueando Potentes Modelos de Lenguaje Grande Sin GPUs

Modelos de Lenguaje Sin Multiplicación de Matrices: Un Gran Avance en Eficiencia

Las multiplicaciones de matrices (MatMul) son las operaciones más intensivas computacionalmente en grandes modelos de lenguaje (LLMs) que utilizan la arquitectura Transformer. A medida que estos modelos crecen, los costos asociados con las operaciones de MatMul aumentan significativamente, lo que resulta en un mayor uso de memoria y latencia durante el entrenamiento y la inferencia.

Investigadores de la Universidad de California en Santa Cruz, la Universidad Soochow y la Universidad de California en Davis han desarrollado una arquitectura innovadora que elimina las multiplicaciones de matrices de los modelos de lenguaje, ofreciendo un rendimiento robusto a gran escala.

Presentando Modelos de Lenguaje Sin MatMul

En su artículo pionero, los investigadores presentan modelos de lenguaje sin MatMul que igualan el rendimiento de los Transformers más avanzados pero requieren considerablemente menos memoria durante la inferencia.

Entendiendo la Multiplicación de Matrices en el Aprendizaje Profundo

La multiplicación de matrices es fundamental en el aprendizaje profundo para combinar datos con pesos en redes neuronales, facilitando la transformación de datos de entrada para generar predicciones. Las GPUs son excelentes en la ejecución simultánea de numerosas operaciones MatMul debido a su arquitectura paralela, crucial para el entrenamiento y despliegue eficiente de modelos complejos.

A pesar de esta ventaja, a medida que los LLMs crecen para incluir cientos de miles de millones de parámetros, las operaciones de MatMul se convierten en cuellos de botella, requiriendo vastos clústeres de GPU para su entrenamiento e inferencia. La transición hacia la eliminación de MatMul podría generar ahorros sustanciales en memoria y computación. Sin embargo, intentos previos de sustituir las operaciones de MatMul han dado resultados inconsistentes, a menudo ralentizando los procesos debido a un rendimiento subóptimo en las GPUs.

Revolucionando Operaciones con Pesos Ternarios

Los investigadores proponen una alternativa emocionante: reemplazar los pesos flotantes tradicionales de 16 bits en los Transformers por pesos ternarios de 3 bits que pueden representar tres estados: -1, 0 y +1. Introducen operaciones aditivas en lugar de MatMul, lo que resulta en reducciones significativas en los costos computacionales. Sus modelos emplean capas “BitLinear” que utilizan estos pesos ternarios.

“Al restringir los pesos al conjunto {−1, 0, +1} y aplicar técnicas de cuantización adicionales, hemos reemplazado MatMul con operaciones de suma y negación,” explican los investigadores.

Cambios Arquitectónicos Innovadores

La arquitectura difiere fundamentalmente de los Transformers tradicionales, que comprenden mezcladores de tokens y canales. El mezclador de tokens, responsable de integrar información a través de tokens de secuencia mediante mecanismos de autoatención, se transforma en una Unidad Recurrente Lineal Sin MatMul (MLGRU). La MLGRU procesa tokens actualizando estados ocultos mediante simples operaciones ternarias, evitando costosas multiplicaciones de matrices.

Además, el mezclador de canales, que integra información a través de diferentes canales de características de la representación de un token, emplea una Unidad Lineal Con Puerta (GLU) modificada que acomoda pesos ternarios. Este ajuste minimiza la complejidad computacional y el uso de memoria, manteniendo la integración efectiva de características.

“Al combinar el mezclador de tokens MLGRU con el mezclador de canales GLU que utiliza pesos ternarios, nuestra arquitectura depende únicamente de sumas y productos elemento a elemento,” destacan los investigadores.

Evaluación del Rendimiento de Modelos de Lenguaje Sin MatMul

Los investigadores contrastan sus modelos de lenguaje sin MatMul con la arquitectura avanzada Transformer++, utilizada en Llama-2, en diversos tamaños de modelo. Sus hallazgos indican que el modelo de 2.7B sin MatMul utiliza de manera efectiva recursos computacionales adicionales para mejorar el rendimiento en comparación con Transformer++.

En la evaluación de tareas de lenguaje, el modelo de 2.7B sin MatMul superó el rendimiento de su contraparte de Transformer++ en pruebas como ARC-Challenge y OpenbookQA, logrando resultados comparables en otras tareas.

“Estos resultados demuestran que las arquitecturas sin MatMul pueden ofrecer un sólido rendimiento cero disparo en diversas tareas de lenguaje, incluyendo respuestas a preguntas y razonamiento común,” afirman los investigadores.

El consumo de memoria y la latencia para los modelos sin MatMul se vuelven más evidentes a medida que aumentan los tamaños del modelo. Por ejemplo, el modelo de 13B requiere solo 4.19 GB de memoria GPU con una latencia de 695.48 ms, mientras que el Transformer++ demanda 48.50 GB con una latencia de 3183.10 ms.

Implementaciones Optimizadas y Direcciones Futuras

Los investigadores desarrollaron una implementación optimizada para GPU y una configuración personalizada de FPGA para modelos de lenguaje sin MatMul. Con esta optimización, lograron una aceleración del 25.6% en el entrenamiento y hasta un 61.0% de reducción en el uso de memoria en comparación con una línea base no optimizada.

“Este trabajo trasciende las implementaciones de software únicamente de modelos livianos, demostrando que los modelos de lenguaje escalables y eficientes pueden reducir efectivamente las demandas computacionales y el consumo de energía,” concluyen los investigadores.

Aunque las limitaciones de pruebas restringieron la evaluación de modelos que superan los 100 mil millones de parámetros, los investigadores esperan alentar a las instituciones a invertir en modelos livianos, allanando el camino para modelos de lenguaje más accesibles que no dependan de GPUs de alta gama. Han puesto su código y modelos a disposición de la comunidad de investigación.

“Al priorizar el desarrollo de arquitecturas sin MatMul, el futuro de los LLMs se orientará hacia una mayor accesibilidad, eficiencia y sostenibilidad,” abogan los investigadores.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles