Arquitectura Transformadora Revolucionaria: Desbloqueando Potentes Modelos de Lenguaje Grande Sin GPUs

Home Noticias de IA Arquitectura Transformadora Revolucionaria: Desbloqueando Potentes Modelos de Lenguaje Grande Sin GPUs

Modelos de Lenguaje Sin Multiplicación de Matrices: Un Gran Avance en Eficiencia

Las multiplicaciones de matrices (MatMul) son las operaciones más intensivas computacionalmente en grandes modelos de lenguaje (LLMs) que utilizan la arquitectura Transformer. A medida que estos modelos crecen, los costos asociados con las operaciones de MatMul aumentan significativamente, lo que resulta en un mayor uso de memoria y latencia durante el entrenamiento y la inferencia.

Investigadores de la Universidad de California en Santa Cruz, la Universidad Soochow y la Universidad de California en Davis han desarrollado una arquitectura innovadora que elimina las multiplicaciones de matrices de los modelos de lenguaje, ofreciendo un rendimiento robusto a gran escala.

Presentando Modelos de Lenguaje Sin MatMul

En su artículo pionero, los investigadores presentan modelos de lenguaje sin MatMul que igualan el rendimiento de los Transformers más avanzados pero requieren considerablemente menos memoria durante la inferencia.

Entendiendo la Multiplicación de Matrices en el Aprendizaje Profundo

La multiplicación de matrices es fundamental en el aprendizaje profundo para combinar datos con pesos en redes neuronales, facilitando la transformación de datos de entrada para generar predicciones. Las GPUs son excelentes en la ejecución simultánea de numerosas operaciones MatMul debido a su arquitectura paralela, crucial para el entrenamiento y despliegue eficiente de modelos complejos.

A pesar de esta ventaja, a medida que los LLMs crecen para incluir cientos de miles de millones de parámetros, las operaciones de MatMul se convierten en cuellos de botella, requiriendo vastos clústeres de GPU para su entrenamiento e inferencia. La transición hacia la eliminación de MatMul podría generar ahorros sustanciales en memoria y computación. Sin embargo, intentos previos de sustituir las operaciones de MatMul han dado resultados inconsistentes, a menudo ralentizando los procesos debido a un rendimiento subóptimo en las GPUs.

Revolucionando Operaciones con Pesos Ternarios

Los investigadores proponen una alternativa emocionante: reemplazar los pesos flotantes tradicionales de 16 bits en los Transformers por pesos ternarios de 3 bits que pueden representar tres estados: -1, 0 y +1. Introducen operaciones aditivas en lugar de MatMul, lo que resulta en reducciones significativas en los costos computacionales. Sus modelos emplean capas “BitLinear” que utilizan estos pesos ternarios.

“Al restringir los pesos al conjunto {−1, 0, +1} y aplicar técnicas de cuantización adicionales, hemos reemplazado MatMul con operaciones de suma y negación,” explican los investigadores.

Cambios Arquitectónicos Innovadores

La arquitectura difiere fundamentalmente de los Transformers tradicionales, que comprenden mezcladores de tokens y canales. El mezclador de tokens, responsable de integrar información a través de tokens de secuencia mediante mecanismos de autoatención, se transforma en una Unidad Recurrente Lineal Sin MatMul (MLGRU). La MLGRU procesa tokens actualizando estados ocultos mediante simples operaciones ternarias, evitando costosas multiplicaciones de matrices.

Además, el mezclador de canales, que integra información a través de diferentes canales de características de la representación de un token, emplea una Unidad Lineal Con Puerta (GLU) modificada que acomoda pesos ternarios. Este ajuste minimiza la complejidad computacional y el uso de memoria, manteniendo la integración efectiva de características.

“Al combinar el mezclador de tokens MLGRU con el mezclador de canales GLU que utiliza pesos ternarios, nuestra arquitectura depende únicamente de sumas y productos elemento a elemento,” destacan los investigadores.

Evaluación del Rendimiento de Modelos de Lenguaje Sin MatMul

Los investigadores contrastan sus modelos de lenguaje sin MatMul con la arquitectura avanzada Transformer++, utilizada en Llama-2, en diversos tamaños de modelo. Sus hallazgos indican que el modelo de 2.7B sin MatMul utiliza de manera efectiva recursos computacionales adicionales para mejorar el rendimiento en comparación con Transformer++.

En la evaluación de tareas de lenguaje, el modelo de 2.7B sin MatMul superó el rendimiento de su contraparte de Transformer++ en pruebas como ARC-Challenge y OpenbookQA, logrando resultados comparables en otras tareas.

“Estos resultados demuestran que las arquitecturas sin MatMul pueden ofrecer un sólido rendimiento cero disparo en diversas tareas de lenguaje, incluyendo respuestas a preguntas y razonamiento común,” afirman los investigadores.

El consumo de memoria y la latencia para los modelos sin MatMul se vuelven más evidentes a medida que aumentan los tamaños del modelo. Por ejemplo, el modelo de 13B requiere solo 4.19 GB de memoria GPU con una latencia de 695.48 ms, mientras que el Transformer++ demanda 48.50 GB con una latencia de 3183.10 ms.

Implementaciones Optimizadas y Direcciones Futuras

Los investigadores desarrollaron una implementación optimizada para GPU y una configuración personalizada de FPGA para modelos de lenguaje sin MatMul. Con esta optimización, lograron una aceleración del 25.6% en el entrenamiento y hasta un 61.0% de reducción en el uso de memoria en comparación con una línea base no optimizada.

“Este trabajo trasciende las implementaciones de software únicamente de modelos livianos, demostrando que los modelos de lenguaje escalables y eficientes pueden reducir efectivamente las demandas computacionales y el consumo de energía,” concluyen los investigadores.

Aunque las limitaciones de pruebas restringieron la evaluación de modelos que superan los 100 mil millones de parámetros, los investigadores esperan alentar a las instituciones a invertir en modelos livianos, allanando el camino para modelos de lenguaje más accesibles que no dependan de GPUs de alta gama. Han puesto su código y modelos a disposición de la comunidad de investigación.

“Al priorizar el desarrollo de arquitecturas sin MatMul, el futuro de los LLMs se orientará hacia una mayor accesibilidad, eficiencia y sostenibilidad,” abogan los investigadores.

Ex-ingenieros de Meta presentan a Jace, un agente de IA autosuficiente.

LiveBench: Un Benchmark de LLM Abierto con Datos de Prueba Libres de Contaminación y Evaluación Objetiva

Most people like

Wefaceswap

153.4K

¡Experimenta un intercambio de rostros sin interrupciones en la nube! Descubre cómo nuestra tecnología avanzada te permite transformar imágenes sin esfuerzo, mejorando tus proyectos creativos con solo unos clics.

Intercambio de rostros con IA AI Face Swap Generator

MidReal

348.8K

Involucra a tu audiencia como nunca antes aprovechando el poder de la IA para crear historias interactivas. Con la tecnología de IA, puedes dar vida a tus narrativas, permitiendo que los lectores tomen decisiones que influyan en la trama. Descubre herramientas y técnicas innovadoras para transformar tu enfoque de narración y dejar una impresión duradera. ¡Comienza hoy tu viaje en la narración interactiva con IA!

Narración con IA AI Story Writing

Blackbox

166.1K

Presentamos Blackbox: un asistente de programación impulsado por IA, diseñado para aumentar la productividad de los desarrolladores y optimizar su flujo de trabajo. Con sus características innovadoras, Blackbox capacita a los programadores para codificar de manera más eficiente y efectiva.

Asistente de programación impulsado por IA AI Code Assistant

funfun.ai

619.1K

Imagina dar vida a tu compañera soñada con el poder de la inteligencia artificial. Una novia AI personalizada no solo puede mantener conversaciones significativas, sino también adaptarse a tus intereses y preferencias, haciendo que cada interacción sea única. En esta guía, exploraremos cómo diseñar a tu novia AI perfecta, diseñada para satisfacer tus deseos y mejorar tu vida diaria. Prepárate para embarcarte en un viaje hacia la creación de una relación que sea completamente tuya.

IA AI Girlfriend

Find AI tools in YBX