Creadores de ‘Attention Is All You Need’ exploran innovaciones en IA más allá de Transformers en Nvidia GTC: ‘El mundo necesita una mejor solución’.

Siete de los ocho autores del innovador artículo 'Attention is All You Need', que presentó los Transformers, se reunieron por primera vez como grupo para dialogar con el CEO de Nvidia, Jensen Huang, en un salón lleno de público durante la conferencia GTC.

Los participantes incluyeron a Noam Shazeer, cofundador y CEO de Character.ai; Aidan Gomez, cofundador y CEO de Cohere; Ashish Vaswani, cofundador y CEO de Essential AI; Llion Jones, cofundador y CTO de Sakana AI; Illia Polosukhin, cofundador de NEAR Protocol; Jakob Uskhoreit, cofundador y CEO de Inceptive; y Lukasz Kaiser, miembro del equipo técnico de OpenAI. Niki Parmar, cofundador de Essential AI, no pudo asistir.

En 2017, el equipo de ocho integrantes de Google Brain logró una revolución con los Transformers, una innovación en redes neuronales para procesamiento del lenguaje natural (NLP) que capturó el contexto y significado de las palabras con mayor precisión que sus predecesoras: las redes neuronales recurrentes y las redes de memoria a corto y largo plazo. La arquitectura de Transformer se convirtió en la base de modelos de lenguaje como GPT-4 y ChatGPT, así como en aplicaciones no lingüísticas, incluyendo Codex de OpenAI y AlphaFold de DeepMind.

‘El mundo necesita algo mejor que los Transformers’

Sin embargo, los creadores de Transformers ahora buscan más allá de lo que construyeron: hacia el futuro de los modelos de IA. Gomez, de Cohere, expresó que “el mundo necesita algo mejor que los Transformers,” añadiendo que “todos aquí esperamos que sea sucedido por algo que nos lleve a un nuevo nivel de rendimiento.” Luego preguntó al resto del grupo: “¿Qué creen que viene después? Ese es el paso emocionante, porque creo que [lo que hay ahora] es demasiado similar a lo que existía hace seis o siete años.”

En una discusión posterior al panel, Gomez amplió sus comentarios, señalando que “sería realmente triste si [los Transformers] son lo mejor que podemos hacer,” y que desde el día siguiente a la entrega del artículo “Attention is All You Need” ha pensado así. “Quiero ver algo diez veces mejor, porque eso significa que todos tendrán acceso a modelos que son diez veces superiores.”

Destacó que existen muchas ineficiencias en el manejo de la memoria en los Transformers y que muchos componentes arquitectónicos no han cambiado desde el principio, los cuales deberían ser “reexplorados y reconsiderados.” Explicó que un contexto muy largo se vuelve costoso y no escalable. Además, “la parametrización es tal vez innecesariamente grande; podríamos reducirlo mucho más y compartir pesos con mayor frecuencia — eso podría disminuirlas en un orden de magnitud.”

‘Hay que ser claramente y obviamente mejor’

Aun así, admitió que aunque los demás autores del artículo probablemente estarían de acuerdo, existen “grados de variación en cuándo sucederá eso. Y tal vez las convicciones varían sobre si sucederá. Pero todos quieren algo mejor — todos somos científicos de corazón — y eso solo significa que queremos ver progreso.”

Durante el panel, Jones de Sakana destacó que para que la industria de IA avance más allá de los Transformers — sea lo que sea que venga — “no solo tienes que ser mejor, tienes que ser claramente mejor... así que [en este momento] está atrapado en el modelo original, a pesar de que técnicamente probablemente no sea lo más potente que haya en este momento.”

Gomez estuvo de acuerdo, indicando que los Transformers se volvieron tan populares no solo porque eran un buen modelo, sino porque emocionaron a la gente — necesitas ambas cosas, dijo. “Si fallas en cualquiera de estas dos áreas, no puedes mover a la comunidad,” explicó. “Por lo tanto, para catalizar el momentum para cambiar de una arquitectura a otra, realmente necesitas presentar algo que emocione a las personas.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles