‘注意力机制’创作者在Nvidia GTC探讨超越变换器的AI创新:‘世界需要更好的解决方案’

在今天的GTC大会上,变压器模型的八位创作者中有七人首次聚在一起,参加了与Nvidia首席执行官黄仁勋的访谈。参与者包括Character.ai的首席执行官Noam Shazeer、Cohere的首席执行官Aidan Gomez、Essential AI的首席执行官Ashish Vaswani、Sakana AI的首席技术官Llion Jones、NEAR Protocol的联合创始人Illia Polosukhin、Inceptive的首席执行官Jakob Uskhoreit,以及OpenAI的技术团队成员Lukasz Kaiser。Essential AI的联合创始人Niki Parmar未能出席。

2017年,Google Brain的这八人团队创造了变压器(Transformers),这是一个在自然语言处理(NLP)领域取得突破的神经网络模型,能够更准确地捕捉单词的上下文和意义,超越了循环神经网络(RNN)和长短期记忆网络(LSTM)。变压器架构成为了大型语言模型(LLMs)如GPT-4和ChatGPT的基础,同时也为OpenAI的Codex和DeepMind的AlphaFold等非语言应用提供了支持。

“世界需要超越变压器的新技术”

如今,这些变压器的创造者们正在展望更远的未来,研究新的AI模型。Cohere的Gomez指出:“到目前为止,世界需要超越变压器的技术。”他补充道:“我相信在座的每个人都希望能有一个新模型,使我们的性能达到新的高峰。”他随即向其他与会者提出问题:“你们认为接下来会是什么?这一阶段令人兴奋,因为我觉得现在的技术跟六、七年前的太相似。”

在与媒体的讨论中,Gomez进一步阐述了他的观点:“如果[变压器]是我们所能做到的最佳技术,那将会非常遗憾。”他表示,自从团队提交《Attention is All You Need》论文的第二天起,他就一直觉得这样。“我希望能够看到一种更为优秀的技术出现,因为这将使每个人都能使用到十倍更好的模型。”

他指出,变压器在内存方面存在许多低效之处,许多架构组件自一开始起就没有改变,需要“重新探索和重新考虑”。例如,他提到,处理过长的上下文会变得成本高昂且难以扩展。此外,“参数可能不必要地庞大,我们可以更大程度地进行压缩,权重共享可以更频繁地实施——这可能会减少数量级。”

“必须显著优于现有技术”

他坦言,虽然其他作者可能会同意这一观点,但他认为实现这一目标的时间上存在“不同的看法,也许对这种技术会否出现的信念也各有不同。但每个人都希望能有更好的技术——毕竟我们都是科学家,这意味着我们希望看到进步。”

在小组讨论中,Sakana的Jones指出,为了让AI行业走出变压器之后的道路,“你不仅要比现有技术更好,还必须显著优于现在的模型……所以[现在]依然停留在原来的模型上,尽管从技术上来看,它可能不是最强大的选择。”

Gomez同意了这一观点,并告诉媒体,变压器之所以如此流行,不仅因为其良好的模型和架构,也因为人们对此感到兴奋。“你需要同时具备这两者,”他说。“如果缺失任何一点,就无法推动整个社区的前进。因此,为了推动架构的转变,你需要提供让人兴奋的新选择。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles