Les créateurs de « Attention Is All You Need » explorent les innovations en IA au-delà des Transformers lors du Nvidia GTC : « Le monde a besoin d'une meilleure solution ».

Sept des huit auteurs du célèbre article « Attention is All You Need », qui a introduit les Transformers, se sont réunis pour la première fois en tant que groupe pour discuter avec le PDG de Nvidia, Jensen Huang, dans une salle comble lors de la conférence GTC aujourd'hui. Parmi eux figuraient Noam Shazeer, co-fondateur et PDG de Character.ai ; Aidan Gomez, co-fondateur et PDG de Cohere ; Ashish Vaswani, co-fondateur et PDG de Essential AI ; Llion Jones, co-fondateur et CTO de Sakana AI ; Illia Polosukhin, co-fondateur de NEAR Protocol ; Jakob Uskhoreit, co-fondateur et PDG de Inceptive ; et Lukasz Kaiser, membre de l'équipe technique d'OpenAI. Niki Parmar, co-fondateur de Essential AI, n'a pas pu assister à l'événement.

En 2017, l'équipe de huit personnes de Google Brain a frappé un grand coup avec les Transformers — une avancée en traitement du langage naturel qui a capturé le contexte et le sens des mots plus précisément que ses prédécesseurs : les réseaux neuronaux récurrents et les réseaux à mémoire à long et court terme. L'architecture Transformer est devenue la base des modèles de langage, tels que GPT-4 et ChatGPT, mais également des applications non linguistiques, y compris Codex d'OpenAI et AlphaFold de DeepMind.

« Le monde a besoin de quelque chose de mieux que les Transformers »

Cependant, les créateurs des Transformers cherchent maintenant au-delà de leur réalisation — vers l'avenir des modèles d'IA. Aidan Gomez de Cohere a déclaré qu'en ce moment, « le monde a besoin de quelque chose de mieux que les Transformers », ajoutant « je pense que nous espérons tous ici qu'il sera remplacé par quelque chose qui nous mènera à un nouveau plateau de performance ». Il a ensuite demandé au reste du groupe : « Que voyez-vous venir après ? C'est l'étape excitante, car je pense que [ce qui existe maintenant] est trop similaire à ce qui était là il y a six ou sept ans. »

Lors d'une discussion avec les médias après le panel, Gomez a approfondi ses commentaires, affirmant qu'« il serait vraiment triste que [les Transformers] soient le meilleur que nous puissions faire », ajoutant qu'il avait pensé cela dès le lendemain de la soumission de l'article « Attention is All You Need ». « Je veux voir quelque chose de dix fois mieux, car cela signifie que tout le monde aurait accès à des modèles qui sont dix fois meilleurs. »

Il a souligné qu'il existe de nombreuses inefficacités du côté mémoire des Transformers et que plusieurs composants architecturaux sont restés inchangés depuis le début et devraient être « réexplorés et reconsidérés ». Par exemple, un contexte très long devient coûteux et non évolutif. De plus, « la paramétrisation est peut-être inutilement grande, nous pourrions la compresser davantage, nous pourrions partager les poids plus souvent — cela pourrait réduire les charges d'un ordre de grandeur. »

« Vous devez être clairement, évidemment meilleur »

Cela dit, il a reconnu que, bien que les autres auteurs de l'article s'accordent probablement sur ce point, il y a des « degrés variables quant au moment où cela se produira. Et peut-être que les convictions varient quant à la possibilité que cela arrive. Mais tout le monde veut du mieux — en fait, nous sommes tous des scientifiques dans l'âme — et cela signifie simplement que nous voulons voir des progrès. »

Cependant, lors du panel, Jones de Sakana a souligné que pour que l'industrie de l'IA passe à autre chose après les Transformers — quoi que cela puisse être — « vous n'avez pas seulement à être meilleur. — vous devez être clairement, évidemment meilleur… donc [en ce moment] c'est bloqué sur le modèle original, malgré le fait que techniquement ce ne soit probablement pas la chose la plus puissante à avoir actuellement. »

Gomez a acquiescé, déclarant aux médias que le Transformer est devenu si populaire non seulement parce que c'était un bon modèle et une bonne architecture, mais aussi parce qu'il a suscité de l'enthousiasme — il faut les deux, a-t-il dit. « Si vous manquez l'un de ces deux éléments, vous ne pouvez pas faire évoluer la communauté, » a-t-il expliqué. « Donc, pour catalyser le mouvement vers un autre type d'architecture, vous devez vraiment présenter quelque chose qui excite les gens. »

Most people like

Find AI tools in YBX