小型大语言模型如何显著降低生成式人工智能成本

Home AI News CN 小型大语言模型如何显著降低生成式人工智能成本

随着大语言模型（LLMs）推动生成性人工智能的成本不断上升，科技行业引发了广泛关注。然而，较小的模型提供了一个有前景的解决方案。UST的首席人工智能架构师阿德南·马苏德在一次采访中指出：“像GPT-4这样的LLMs展现了显著的性能提升，但这些改进也导致了成本的飙升。” 他强调，LLMs的计算需求由于其庞大的规模和数十亿的参数，消耗了大量电力，这不仅导致运营费用增加，还引发了环境问题。

马苏德补充道：“随着模型规模常常超过GPU内存的容量，对专用硬件或复杂模型并行技术的依赖日益增加，从而进一步提高了基础设施的成本。”他指出，经过精心微调的小型语言模型不仅可以降低成本，还能提高效率。像模型蒸馏和量化等技术可以有效地压缩和优化这些小型模型。蒸馏是指在较小模型上训练更大的模型输出，而量化则是降低模型数值权重的精度，从而形成一个体积更小、速度更快的模型。

较小模型的参数数量减少直接意味着对计算能力的需求降低，这可以实现更快速的推理和可能短时间的训练。马苏德阐述道：“这种紧凑的模型能够无缝集成在标准GPU内存中，有效消除了对更昂贵专用硬件设施的需求。”计算和内存使用的减少不仅降低了能源消耗，还削减了运营成本。利用API进行早期概念验证或生产工作负载的原型制作，对企业也大有裨益，尤其是在扩展时每个token的成本较低。然而，马苏德警告称，单靠大型语言模型可能导致在应用快速增长时，成本出现指数级上涨。

除了减少训练时间和成本，较小模型还显著降低了云基础设施的支出，正如安永（EY）美洲新兴技术领导人马特·巴林顿所强调的。例如，在云平台上微调针对特定领域的模型，能够实现更低的资源利用率。这一转变使公司能够更有效地分配其人工智能资源，集中精力接近最终用户。巴林顿确认：“通过在边缘计算中采用紧凑的语言模型，企业可以减少对昂贵云资源的依赖，从而实现可观的成本节约。”

目前已经有多个有效的AI模型正在广泛应用。马苏德表示，最近的phi-1.5模型的性能能力已与更大的模型（如GPT-4）相抗衡。此外，像Med-PaLM 2这样的专用模型是专为医疗行业开发的，而Sec-Palm则用于安全应用。与此同时，像Llama 2 70b这样的模型作为性价比较高的替代品，其价格远低于竞争对手，如谷歌的PaLM 2，显示出相较于之前模型迭代的显著降幅。值得注意的是，Meta的130亿参数的LLaMA在多个基准测试中超越了更大的GPT-3。

约翰·霍普金斯大学的BabyLM挑战赛旨在提高小型模型的效能，使之与LLMs抗衡。此外，亚马逊还提供可定制的小型模型市场，满足企业特定的数据需求。像Anyscale和MosaicML这样的组织也以合理的价格销售70亿参数的Llama 2模型，突出向高效且经济友好解决方案的转变。

随着大语言模型的成本持续飙升，寻找经济实惠的替代方案的紧迫性愈发明显。这些模型的训练费用十分高昂，尤其是像英伟达的H100等GPU，单价甚至超过3万美元。Aisera首席执行官穆杜·苏达卡尔指出：“这种GPU有排队现象，部分风险投资者甚至利用它们吸引初创企业获得资金。”他强调，尽管获得了GPU，企业仍需实现有意义的收入来抵消高昂的费用。他提到风险投资公司红杉的最新博客，指出存在重大盈利缺口，这可能阻碍生成性AI市场的增长。“一旦获得GPU，企业还面临招聘数据科学家的挑战，其薪酬包也可能相当可观，”他解释道。“此外，由于处理交互、管理和升级模型以及解决各种安全问题的持续需求，运营LLMs的成本也高昂。”

展望未来，马苏德预见微调后的LLMs将达到与大型模型相似的性能水平，但成本却大幅降低。开源社区已经通过像LongLoRA这样的创新，解决了许多实际挑战，大幅扩展上下文窗口。“如果当前的趋势得以保持，我们可能很快会看到开源模型与小型LLMs的结合，形成下一代语言建模生态系统的基础，”他总结道。

EY与IBM携手整合生成式AI创新于人力资源管理

沃尔玛通过新生成式AI功能提升购物体验