Investigadores de ETH Zurich han desarrollado una técnica innovadora que aumenta drásticamente la eficiencia de las redes neuronales. Al modificar el proceso de inferencia, han logrado reducir significativamente las demandas computacionales de estas redes.
En sus experimentos con BERT, un modelo transformador ampliamente utilizado en diversas tareas lingüísticas, los investigadores alcanzaron una notable reducción de más del 99% en los cálculos. Este método de vanguardia también puede aplicarse a modelos transformadores que alimentan grandes modelos de lenguaje (LLMs) como GPT-3, allanando el camino para un procesamiento del lenguaje más rápido y eficiente.
Entendiendo las Redes Feedforward Rápidas
Los transformadores, que son la columna vertebral de los LLMs, constan de múltiples capas, incluyendo capas de atención y feedforward. Las capas feedforward, que abarcan una parte significativa de los parámetros del modelo, son computacionalmente intensivas debido a la necesidad de calcular el producto de todas las neuronas a través de las dimensiones de entrada.
Los investigadores descubrieron que no todas las neuronas en las capas feedforward necesitan ser activadas para cada entrada durante la inferencia. Introdujeron "capas feedforward rápidas" (FFF) para reemplazar las capas feedforward convencionales.
FFF emplea la multiplicación condicional de matrices (CMM), una operación matemática que sustituye las multiplicaciones de matrices densas (DMM) de las redes feedforward tradicionales. Mientras que DMM implica multiplicar todos los parámetros de entrada por todas las neuronas, CMM utiliza selectivamente solo un conjunto de neuronas para cada entrada, optimizando así el procesamiento y reduciendo la carga computacional.
FastBERT: Un Cambio Radical en el Procesamiento del Lenguaje
Para probar su técnica innovadora, los investigadores desarrollaron FastBERT, una versión modificada del modelo BERT de Google. FastBERT mejora el rendimiento al sustituir las capas feedforward estándar por capas feedforward rápidas, organizando las neuronas en una estructura de árbol binario balanceado que activa solo una rama según entradas específicas.
Para evaluar las capacidades de FastBERT, el equipo ajustó varios modelos utilizando la evaluación General Language Understanding (GLUE), un conjunto de pruebas diseñado para evaluar sistemas de comprensión del lenguaje natural.
Los resultados fueron sorprendentes: FastBERT obtuvo un rendimiento similar al de los modelos BERT base de tamaño y entrenamiento comparable. Las variantes que se ajustaron durante solo un día en una sola GPU A6000 mantuvieron al menos el 96.0% del rendimiento de BERT. Notablemente, la mejor variante igualó el rendimiento de BERT utilizando solo el 0.3% de sus neuronas.
Los investigadores afirman que la integración de redes feedforward rápidas en los LLMs tiene un gran potencial para aumentar la velocidad. Por ejemplo, en GPT-3, cada capa transformadora contiene 49,152 neuronas; con FFF, esto podría optimizarse para utilizar solo 16 neuronas durante la inferencia, lo que representa alrededor del 0.03% de las neuronas de GPT-3.
Abordando Desafíos de Optimización
Si bien la multiplicación de matrices densas ha experimentado una optimización sustancial a lo largo de los años, lo mismo no se puede decir de la multiplicación condicional de matrices. Los investigadores señalaron: "La multiplicación de matrices densas es la operación matemática más optimizada en la historia de la computación". Los marcos actuales de aprendizaje profundo ofrecen un soporte limitado para CMM, predominantemente a través de simulaciones de alto nivel.
Para avanzar en esta investigación, el equipo desarrolló su propia implementación de operaciones CMM, lo que resultó en una impresionante mejora de velocidad de 78 veces durante la inferencia. Creen que, con hardware mejorado y mejores implementaciones de algoritmos de bajo nivel, las velocidades podrían superar una mejora de 300 veces. Esto abordaría significativamente uno de los desafíos más apremiantes en los modelos de lenguaje: generar tokens más rápidamente.
Conclusión
La promesa de una aceleración teórica de 341 veces para los modelos BERT-base resalta el potencial transformador de su trabajo. Los investigadores esperan inspirar un mayor desarrollo de primitivas de ejecución neuronal condicional dentro de las interfaces de programación de dispositivos. Esta investigación es un paso crítico hacia la superación de las limitaciones de memoria y computación de los grandes modelos de lenguaje, fomentando el desarrollo de sistemas de IA más eficientes y robustos.