Criadores do 'Attention Is All You Need' Exploram Inovações em IA Além dos Transformers na Nvidia GTC: 'O Mundo Precisa de uma Solução Melhor'

Sete dos oito autores do importante artigo "Attention is All You Need", que introduziu os Transformers, se reuniram pela primeira vez como um grupo para uma conversa com o CEO da Nvidia, Jensen Huang, em um salão lotado na conferência GTC hoje. Os participantes incluíram Noam Shazeer, cofundador e CEO da Character.ai; Aidan Gomez, cofundador e CEO da Cohere; Ashish Vaswani, cofundador e CEO da Essential AI; Llion Jones, cofundador e CTO da Sakana AI; Illia Polosukhin, cofundador do NEAR Protocol; Jakob Uskhoreit, cofundador e CEO da Inceptive; e Lukasz Kaiser, membro da equipe técnica da OpenAI. Niki Parmar, cofundadora da Essential AI, não pôde comparecer.

Em 2017, a equipe de oito pessoas do Google Brain fez história com os Transformers — um avanço em redes neurais para PLN que capturou o contexto e o significado das palavras de forma mais precisa do que seus predecessores, as redes neurais recorrentes e as redes de memória de longo e curto prazo. A arquitetura Transformer se tornou a base de LLMs como GPT-4 e ChatGPT, além de aplicações não linguísticas, incluindo o Codex da OpenAI e o AlphaFold da DeepMind.

"O mundo precisa de algo melhor do que Transformers"

Agora, os criadores dos Transformers estão olhando além do que construíram — para o futuro dos modelos de IA. Gomez, da Cohere, afirmou que "o mundo precisa de algo melhor do que Transformers", acrescentando que "todos nós aqui esperamos que seja sucedido por algo que nos leve a um novo patamar de desempenho." Ele questionou o grupo: "O que vocês veem como próximo? Esse é o passo empolgante, porque o que temos agora é muito semelhante ao que existia há seis ou sete anos."

Em uma conversa com a imprensa após o painel, Gomez ampliou seus comentários, dizendo que "seria muito triste se [os Transformers] forem o melhor que podemos fazer", observando que pensou assim desde o dia seguinte ao envio do artigo "Attention is All You Need". "Quero ver isso ser substituído por algo 10 vezes melhor, porque isso significa que todos terão acesso a modelos que são 10 vezes melhores."

Ele ressaltou que existem muitas ineficiências no lado da memória dos Transformers e que muitos componentes arquitetônicos permaneceram os mesmos desde o início e precisam ser "reexplorados, reconsiderados". Por exemplo, um contexto muito longo se torna caro e não escalável. Além disso, "a parametrização é possivelmente grande demais, poderíamos compactá-la muito mais, compartilhar pesos com mais frequência — isso poderia reduzir as dimensões por uma ordem de magnitude."

"Você tem que ser claramente, obviamente melhor"

Gomez admitiu que, embora os outros autores do artigo provavelmente concordassem, existem "graus variados de quando isso acontecerá. E talvez as convicções variem sobre se isso acontecerá. Mas todos queremos algo melhor — somos todos cientistas por natureza — e isso significa que queremos ver progresso."

Durante o painel, Jones, da Sakana, destacou que, para a indústria de IA avançar para o próximo passo após os Transformers — o que quer que isso seja — "não é suficiente ser apenas melhor... você tem que ser claramente, obviamente melhor... [atualmente] está preso ao modelo original, apesar de provavelmente não ser a coisa mais poderosa disponível agora."

Gomez concordou, afirmando à imprensa que os Transformers se tornaram tão populares não apenas porque eram um bom modelo e arquitetura, mas porque as pessoas ficaram empolgadas com isso — você precisa de ambos. "Se você faltar em qualquer uma dessas duas coisas, não pode mover a comunidade," explicou. "Portanto, para catalisar o momento de transição de uma arquitetura para outra, você realmente precisa apresentar algo que entusiasme as pessoas."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles