La arquitectura transformadora revolucionaria mejora la velocidad y la eficiencia de recursos de los modelos de lenguaje.

Modelos de lenguaje grandes como ChatGPT y Llama-2 son conocidos por sus extensos requerimientos de memoria y computacionales, lo que los hace costosos de operar. Reducir incluso una pequeña parte de su tamaño puede resultar en ahorros significativos.

Para abordar este desafío, investigadores del ETH Zurich han presentado una versión innovadora del transformador, una arquitectura de aprendizaje profundo que sirve como base para los modelos de lenguaje. Este nuevo diseño reduce significativamente el tamaño del transformador, manteniendo la precisión y aumentando la velocidad de inferencia, lo que muestra un enfoque prometedor para crear modelos de lenguaje más eficientes.

Entendiendo los Bloques de Transformador

Los modelos de lenguaje se basan en bloques de transformador, unidades uniformes diseñadas para procesar datos secuenciales, como pasajes de texto. Un bloque de transformador clásico comprende dos componentes clave: el mecanismo de atención y el perceptrón multicapa (MLP). El mecanismo de atención destaca selectivamente partes de los datos de entrada (como palabras en una oración), capturando su contexto y relevancia en relación unos con otros. Esta capacidad permite al modelo comprender las relaciones entre palabras, incluso cuando están distantes en el texto.

Después del mecanismo de atención, el MLP, una red neuronal más pequeña, refina aún más la información destacada, transformándola en una representación más sofisticada que captura relaciones complejas. Componentes adicionales como conexiones residuales y capas de normalización mejoran el aprendizaje y abordan desafíos comunes en redes neuronales profundas. A medida que estos bloques de transformador se apilan para formar un modelo de lenguaje, su capacidad para reconocer relaciones complejas crece, habilitando las tareas avanzadas que realizan los modelos de lenguaje modernos. A pesar de su impacto revolucionario, el diseño básico del bloque de transformador ha permanecido prácticamente sin cambios desde su creación.

Mejorando la Eficiencia del Transformador

Según los investigadores del ETH Zurich, “Dado el exorbitante costo de entrenar y desplegar grandes modelos de transformador hoy en día, cualquier ganancia de eficiencia en los procesos de entrenamiento e inferencia para la arquitectura del transformador representa un potencial de ahorro significativo.” Argumentan que simplificar el bloque de transformador al eliminar componentes no esenciales minimiza el conteo de parámetros y mejora la capacidad de procesamiento del modelo.

Sus experimentos revelan que la racionalización del bloque de transformador no compromete la velocidad de entrenamiento ni el rendimiento. Los modelos de transformador tradicionales utilizan múltiples cabezas de atención, cada una con su propio conjunto de parámetros de clave (K), consulta (Q) y valor (V), que juntas facilitan el mapeo de las relaciones entre tokens de entrada. Los investigadores descubrieron que eliminar los parámetros V y la capa de proyección asociada no disminuyó la efectividad.

Además, eliminaron las conexiones de salto, que normalmente previenen el problema de "gradientes que desaparecen" que dificulta el entrenamiento en redes profundas.

Nuevo Diseño del Bloque de Transformador

El bloque de transformador rediseñado procesa las cabezas de atención y el MLP de manera concurrente, rompiendo con el procesamiento secuencial tradicional. Para contrarrestar la reducción en parámetros, los investigadores ajustaron otros parámetros no aprendibles, refinaron sus métodos de entrenamiento y realizaron ajustes arquitectónicos. Estas innovaciones, en conjunto, preservan las capacidades de aprendizaje del modelo a pesar de su estructura más compacta.

Pruebas del Bloque de Transformador Mejorado

El equipo del ETH Zurich evaluó su bloque de transformador compacto en varias profundidades de modelo de lenguaje. Lograron una reducción notable en el tamaño del transformador convencional de aproximadamente un 16% sin sacrificar la precisión, al mismo tiempo que consiguieron tiempos de inferencia más rápidos. Por ejemplo, aplicar esta arquitectura a un modelo grande como GPT-3, con 175 mil millones de parámetros, podría ahorrar alrededor de 50 GB de memoria.

“Nuestros modelos simplificados no solo entrenan más rápido, sino que también utilizan mejor la capacidad adicional proporcionada por una mayor profundidad,” señalaron los investigadores. Aunque esta técnica ha demostrado ser efectiva a pequeña escala, su aplicación a modelos más grandes aún debe ser explorada. El potencial para mejoras adicionales, como personalizar procesadores de IA para esta arquitectura optimizada, podría amplificar significativamente su impacto.

Los investigadores concluyen: “Creemos que nuestro trabajo puede llevar a que arquitecturas más simples sean adoptadas en la práctica, cerrando la brecha entre la teoría y la aplicación en el aprendizaje profundo, y reduciendo los costos asociados con los grandes modelos de transformador.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles