行业向更小、专业且高效的人工智能模型转型,反映出一种与硬件变革相似的趋势,特别是图形处理单元(GPU)、张量处理单元(TPU)及其他硬件加速器的广泛应用,这些技术大幅提高了计算效率。
中央处理器的权衡
中央处理器(CPU)被设计为通用计算引擎,能够执行各种任务——从数据排序到计算及外部设备管理。这种多功能性使其能够处理不同的内存访问模式、计算操作和控制流程。然而,这种通用性也带来了缺陷。CPU硬件的复杂性导致需要更多的硅来构建电路,消耗更多的能量,并且在执行任务时需要更长的时间。因此,尽管CPU具备灵活性,但效率却受到牺牲。
这种权衡促使过去10-15年间,专业计算的需求日益增长。
专业引擎的崛起
谈到人工智能时,GPU、TPU和神经处理单元(NPU)等术语常常被提及。这些专业引擎与CPU不同,专注于特定任务,从而提高了效率。通过把更多的晶体管和能量投入计算和数据访问,这些模型能够以更经济的方式运行,同时最大限度地减少对通用功能的支持。因此,简单化的设计使得系统能够集成多个并行工作的计算引擎,显著提高了单位时间和能量下的操作数量。
大型语言模型的并行变革
大型语言模型(LLM)领域也正在发生并行进化。像GPT-4这样的通用模型虽然具备广泛功能,但其参数数量庞大(传闻已达数万亿),所需的计算与内存资源也极为昂贵。由此,像CodeLlama这样的专业模型应运而生,在编码任务中以更低的成本和更高的精度表现出色。同样,Llama-2-7B在实体提取等语言处理任务中效果显著,且计算开销较小。而像Mistral和Zephyr等更小的模型更是体现了这一趋势。
这种演变与从单一依赖CPU向包含GPU等专用计算引擎的混合模型转变相呼应,后者尤其擅长并行处理,广泛应用于人工智能、模拟和图形渲染等任务。
追求效率的简单化
在LLM领域的未来,将倾向于为大多数人工智能任务部署多个简单模型,仅在真正需要时使用大型资源密集型模型。许多企业应用——包括非结构化数据处理、文本分类及摘要生成——都能通过小型专业模型有效完成。
原则很明确:简单操作消耗更少的电子,能量效率因此提高。这不仅是技术的偏好,更是根植于物理基本法则的必要决策。因此,人工智能的未来将从追求更大型的通用模型转向战略性地拥抱专业化,创造可持续、可扩展且高效的AI解决方案。