人工智能的未来:超越变换器架构
当前,变换器架构是公共和私营部门领先人工智能模型的基础。那么,未来会怎样呢?这种架构能否提升推理能力?在变换器之后,有哪些创新?目前,实施人工智能需要大量数据、GPU计算资源以及专业人才,这使得开发和维护的成本相对较高。
人工智能的部署始于更智能的聊天机器人。现在,初创企业和企业已经发展出增强人类知识和技能的助手。下一个逻辑进步是将多步骤工作流程、记忆和个性化整合到能够处理销售、工程等多个职能的代理中。目标是使用户的提示能够使代理理解意图,将任务分解为可操作的步骤,并执行这些步骤,无论是通过网页搜索、多工具认证,还是根据以往行为学习。
您准备好迎接人工智能代理了吗?
想象一下,个人人工智能代理如同数字化的贾维斯,直观地管理您手机上的任务。无论是预定前往夏威夷的旅行、点您喜欢的餐点,还是管理个人财务,个性化代理的潜力令人期待。然而,从技术角度来看,我们仍然任重道远。
变换器架构是否已经到达尽头?
变换器中的自注意力机制使模型能够同时评估每个输入令牌的重要性,从而通过捕捉长程依赖关系增强对语言和计算机视觉的理解。然而,这种复杂性导致高内存消耗和较慢的性能,尤其是在处理较长的序列(例如DNA)时。
为了解决这些挑战,几个研究项目致力于优化变换器性能:
1. 硬件改进:FlashAttention通过优化GPU上不同内存类型之间的读写操作,提高变换器的效率,减少数据传输。
2. 近似注意力:研究旨在将自注意力机制的O(n²)复杂度降低到线性水平,以便更好地处理长序列,相关的方法包括Reformer和Performer。
除了这些优化措施,替代模型正在出现以挑战变换器的主导地位:
- 状态空间模型(SSM):这些模型与递归神经网络和卷积神经网络相关,能够为长序列提供线性或接近线性的计算能力。尽管像Mamba这样的SSM能够有效处理长距离关系,但在整体性能上仍落后于变换器。
最近的模型研究成果逐渐公开,预示着人工智能技术的不断演变。
重要模型发布
来自行业领军企业(如OpenAI、Cohere、Anthropic和Mistral)最新发布的模型备受瞩目,尤其是Meta推出的专注于编译优化的基础模型。
除了传统的变换器,我们还见证了状态空间模型的崛起、结合SSM和变换器的混合模型、专家组合模型(MoE)以及专家组成模型(CoE)。一些备受关注的关键模型包括:
- Databricks的DBRX模型:该MoE模型具有1320亿个参数,利用16个专家,其中4个在推理或训练期间处于激活状态。其拥有32K的上下文窗口,经过12万亿个令牌的训练,需要大量的预训练和精炼资源。
- SambaNova Systems的Samba CoE v0.2:该CoE模型由五个70亿参数的专家组成,仅在推理时激活一个,具备每秒330个令牌的快速性能。
- AI21 Labs的Jamba:该混合模型结合了变换器元素和Mamba架构,增强了长上下文的处理能力,同时克服了传统变换器的局限。
企业应用中的挑战
尽管尖端模型展现了巨大潜力,但企业在采纳时仍面临重大技术挑战:
- 企业功能缺乏:许多模型目前缺乏角色基础访问控制(RBAC)和单点登录(SSO)等关键特性,影响企业准备度。组织正在专门分配预算,以防在技术领域落后。
- 安全复杂性:新的人工智能功能可能会复杂化数据和应用安全。例如,视频会议工具可能引入AI转录功能,尽管有益,但在合规性方面,特别是在受监管行业中,需要进一步审查。
- 在检索增强生成(RAG)和微调之间的选择:RAG确保了事实准确性,但可能无法像微调那样有效提升模型质量,而微调又存在过拟合等挑战。随着技术的发展,RAG受到了青睐,特别是Cohere的Command R+,这是首个在聊天机器人和企业工作流程上超越GPT-4的开源模型。
我最近与一家大型金融机构的人工智能领导者进行了交流,他指出,未来属于那些擅长撰写提示的人,而非软件工程师。通过简单的草图和多模态模型,非技术用户可以轻松创建应用,将工具的使用转化为职业优势。
研究人员、从业者和创始人现在拥有多种架构可供探索,以寻求更高效、成本更低且准确的模型。微调技术和新兴的直接偏好优化(DPO)等替代方案为创新提供了新的途径。
随着生成式人工智能领域的快速发展,初创企业和开发人员在确定优先级时可能会感到困惑。未来对于愿意创新和适应的人来说,潜力无限。