OpenAI与自托管:揭示自建语言模型的真实成本

你自豪地将自己的服务标榜为“人工智能驱动”,通过整合大型语言模型(LLMs)来实现这一目标。你的网站首页展示了AI驱动解决方案的变革性影响,通过互动演示和案例研究,标志着你在全球生成式人工智能领域的迈进。

尽管你的小型但忠实的用户群体对改善的客户体验表示赞赏,增长机会也在逐渐显现。然而,刚进入本月三周时,来自OpenAI的一封电子邮件让你感到意外。

就在一周前,你还在与客户讨论,评估产品与市场的契合度,没想到你的网站流量突然飙升,导致你的AI驱动服务崩溃。这一流量激增不仅让现有用户感到沮丧,也影响了新用户。虽然迅速提升使用限制可能是个简单的解决方案,但你对单一服务提供商的依赖和控制AI成本的缺失感到不安。

你开始思考:“我应该自建服务吗?”

幸运的是,像Hugging Face这样的开放源代码平台上有许多可用的LLMs,这为自建服务提供了可能性。然而,许多领先模型有数十亿个参数,需要大量资源来扩展,特别是在低延迟应用方面。

尽管你对团队建立必要基础设施的能力充满信心,但这一转型的潜在成本仍让人心生畏惧:

- 微调成本

- 托管费用

- 服务费用

因此,紧迫的问题是:你该提升使用限制还是追求自建服务?

评估LLaMA 2

这是一项重大决策,请花点时间进行评估。

与机器学习工程师讨论后,你发现了LLaMA 2,这是一个开放源码的LLM,与当前使用的GPT-3性能相当。LLaMA 2有三种规模:70亿、130亿和700亿参数。为了保持竞争力,你选择了最大的版本。

LLaMA 2采用bfloat16格式训练,每个参数需要2字节,总模型大小为140 GB。

担心微调如此规模模型的复杂性?不必担心。通过LoRA,你可能只需微调约0.1%的参数,大约7000万个,仅需0.14 GB的存储空间。

在微调过程中(包括反向传播和数据存储),你应当保持大约五倍于可训练参数的内存:

- LLaMA 2模型权重:140 GB(无内存开销)

- LoRA微调权重:0.14 GB * 5 = 0.7 GB

因此,微调期间的总占用内存约为141 GB。

如果你缺少训练基础设施,可以考虑使用AWS。按需定价大约为每小时$2.80,微调的每日费用约为$67,尤其是在微调不会花费太久的情况下,这个费用相对合理。

理解服务成本

在部署时,你需要在内存中保持两组权重:

- 模型权重:140 GB

- LoRA微调权重:0.14 GB

总共大约为140.14 GB。虽然你可以跳过梯度计算,但保持大约1.5倍的内存以应对不可预见的开销是明智的(约210 GB)。

在AWS上,GPU计算的费用大约为每小时$3.70,或每日约$90,按月计算约$2,700。

另外,还要计划应急措施。为了防止服务中断,可以考虑保持冗余模型,这将把成本增加到每日约$180,或每月约$5,400,接近你目前OpenAI的费用。

成本盈亏分析

继续使用OpenAI将使你获得大约日处理能力,以匹配微调LLaMA 2的费用:

微调GPT-3.5 Turbo的费用为每1K标记$0.008。假设每个词两标记,要平衡开源模型的微调费用($67/天),你每天需要处理大约415万字,相当于约14,000页数据。

对大多数组织而言,这样的处理量是难以收集的,因此利用OpenAI进行微调通常是更经济的选择。

总结:何时拥有是值得的?

自建AI服务乍一看似乎很诱人,但要警惕隐藏成本。虽然第三方提供商缓解了管理LLM的诸多挑战,但他们也有自己的优点,特别是对于依赖AI而非以其为核心的服务。

对于大型企业而言,年拥有成本$65,000似乎在可管理范围内,但对大多数企业来说,这仍然是一个不小的数字。不要忽视人才和维护的额外费用,这可能使总成本达到$200,000-$250,000或更高。

虽然拥有模型让你可以控制数据和使用,然而你每天需要处理22.2百万字以上的用户请求,以及相应的后勤资源来管理这些需求。对于许多用例,自建服务与使用API之间的经济效益仍不明确。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles