随着大语言模型(LLMs)推动生成性人工智能的成本不断上升,科技行业引发了广泛关注。然而,较小的模型提供了一个有前景的解决方案。UST的首席人工智能架构师阿德南·马苏德在一次采访中指出:“像GPT-4这样的LLMs展现了显著的性能提升,但这些改进也导致了成本的飙升。” 他强调,LLMs的计算需求由于其庞大的规模和数十亿的参数,消耗了大量电力,这不仅导致运营费用增加,还引发了环境问题。
马苏德补充道:“随着模型规模常常超过GPU内存的容量,对专用硬件或复杂模型并行技术的依赖日益增加,从而进一步提高了基础设施的成本。”他指出,经过精心微调的小型语言模型不仅可以降低成本,还能提高效率。像模型蒸馏和量化等技术可以有效地压缩和优化这些小型模型。蒸馏是指在较小模型上训练更大的模型输出,而量化则是降低模型数值权重的精度,从而形成一个体积更小、速度更快的模型。
较小模型的参数数量减少直接意味着对计算能力的需求降低,这可以实现更快速的推理和可能短时间的训练。马苏德阐述道:“这种紧凑的模型能够无缝集成在标准GPU内存中,有效消除了对更昂贵专用硬件设施的需求。”计算和内存使用的减少不仅降低了能源消耗,还削减了运营成本。利用API进行早期概念验证或生产工作负载的原型制作,对企业也大有裨益,尤其是在扩展时每个token的成本较低。然而,马苏德警告称,单靠大型语言模型可能导致在应用快速增长时,成本出现指数级上涨。
除了减少训练时间和成本,较小模型还显著降低了云基础设施的支出,正如安永(EY)美洲新兴技术领导人马特·巴林顿所强调的。例如,在云平台上微调针对特定领域的模型,能够实现更低的资源利用率。这一转变使公司能够更有效地分配其人工智能资源,集中精力接近最终用户。巴林顿确认:“通过在边缘计算中采用紧凑的语言模型,企业可以减少对昂贵云资源的依赖,从而实现可观的成本节约。”
目前已经有多个有效的AI模型正在广泛应用。马苏德表示,最近的phi-1.5模型的性能能力已与更大的模型(如GPT-4)相抗衡。此外,像Med-PaLM 2这样的专用模型是专为医疗行业开发的,而Sec-Palm则用于安全应用。与此同时,像Llama 2 70b这样的模型作为性价比较高的替代品,其价格远低于竞争对手,如谷歌的PaLM 2,显示出相较于之前模型迭代的显著降幅。值得注意的是,Meta的130亿参数的LLaMA在多个基准测试中超越了更大的GPT-3。
约翰·霍普金斯大学的BabyLM挑战赛旨在提高小型模型的效能,使之与LLMs抗衡。此外,亚马逊还提供可定制的小型模型市场,满足企业特定的数据需求。像Anyscale和MosaicML这样的组织也以合理的价格销售70亿参数的Llama 2模型,突出向高效且经济友好解决方案的转变。
随着大语言模型的成本持续飙升,寻找经济实惠的替代方案的紧迫性愈发明显。这些模型的训练费用十分高昂,尤其是像英伟达的H100等GPU,单价甚至超过3万美元。Aisera首席执行官穆杜·苏达卡尔指出:“这种GPU有排队现象,部分风险投资者甚至利用它们吸引初创企业获得资金。”他强调,尽管获得了GPU,企业仍需实现有意义的收入来抵消高昂的费用。他提到风险投资公司红杉的最新博客,指出存在重大盈利缺口,这可能阻碍生成性AI市场的增长。“一旦获得GPU,企业还面临招聘数据科学家的挑战,其薪酬包也可能相当可观,”他解释道。“此外,由于处理交互、管理和升级模型以及解决各种安全问题的持续需求,运营LLMs的成本也高昂。”
展望未来,马苏德预见微调后的LLMs将达到与大型模型相似的性能水平,但成本却大幅降低。开源社区已经通过像LongLoRA这样的创新,解决了许多实际挑战,大幅扩展上下文窗口。“如果当前的趋势得以保持,我们可能很快会看到开源模型与小型LLMs的结合,形成下一代语言建模生态系统的基础,”他总结道。