OpenAI与自托管：揭示自建语言模型的真实成本

Home AI News CN OpenAI与自托管：揭示自建语言模型的真实成本

你自豪地将自己的服务标榜为“人工智能驱动”，通过整合大型语言模型（LLMs）来实现这一目标。你的网站首页展示了AI驱动解决方案的变革性影响，通过互动演示和案例研究，标志着你在全球生成式人工智能领域的迈进。

尽管你的小型但忠实的用户群体对改善的客户体验表示赞赏，增长机会也在逐渐显现。然而，刚进入本月三周时，来自OpenAI的一封电子邮件让你感到意外。

就在一周前，你还在与客户讨论，评估产品与市场的契合度，没想到你的网站流量突然飙升，导致你的AI驱动服务崩溃。这一流量激增不仅让现有用户感到沮丧，也影响了新用户。虽然迅速提升使用限制可能是个简单的解决方案，但你对单一服务提供商的依赖和控制AI成本的缺失感到不安。

你开始思考：“我应该自建服务吗？”

幸运的是，像Hugging Face这样的开放源代码平台上有许多可用的LLMs，这为自建服务提供了可能性。然而，许多领先模型有数十亿个参数，需要大量资源来扩展，特别是在低延迟应用方面。

尽管你对团队建立必要基础设施的能力充满信心，但这一转型的潜在成本仍让人心生畏惧：

- 微调成本

- 托管费用

- 服务费用

因此，紧迫的问题是：你该提升使用限制还是追求自建服务？

评估LLaMA 2

这是一项重大决策，请花点时间进行评估。

与机器学习工程师讨论后，你发现了LLaMA 2，这是一个开放源码的LLM，与当前使用的GPT-3性能相当。LLaMA 2有三种规模：70亿、130亿和700亿参数。为了保持竞争力，你选择了最大的版本。

LLaMA 2采用bfloat16格式训练，每个参数需要2字节，总模型大小为140 GB。

担心微调如此规模模型的复杂性？不必担心。通过LoRA，你可能只需微调约0.1%的参数，大约7000万个，仅需0.14 GB的存储空间。

在微调过程中（包括反向传播和数据存储），你应当保持大约五倍于可训练参数的内存：

- LLaMA 2模型权重：140 GB（无内存开销）

- LoRA微调权重：0.14 GB * 5 = 0.7 GB

因此，微调期间的总占用内存约为141 GB。

如果你缺少训练基础设施，可以考虑使用AWS。按需定价大约为每小时$2.80，微调的每日费用约为$67，尤其是在微调不会花费太久的情况下，这个费用相对合理。

理解服务成本

在部署时，你需要在内存中保持两组权重：

- 模型权重：140 GB

- LoRA微调权重：0.14 GB

总共大约为140.14 GB。虽然你可以跳过梯度计算，但保持大约1.5倍的内存以应对不可预见的开销是明智的（约210 GB）。

在AWS上，GPU计算的费用大约为每小时$3.70，或每日约$90，按月计算约$2,700。

另外，还要计划应急措施。为了防止服务中断，可以考虑保持冗余模型，这将把成本增加到每日约$180，或每月约$5,400，接近你目前OpenAI的费用。

成本盈亏分析

继续使用OpenAI将使你获得大约日处理能力，以匹配微调LLaMA 2的费用：

微调GPT-3.5 Turbo的费用为每1K标记$0.008。假设每个词两标记，要平衡开源模型的微调费用（$67/天），你每天需要处理大约415万字，相当于约14,000页数据。

对大多数组织而言，这样的处理量是难以收集的，因此利用OpenAI进行微调通常是更经济的选择。

总结：何时拥有是值得的？

自建AI服务乍一看似乎很诱人，但要警惕隐藏成本。虽然第三方提供商缓解了管理LLM的诸多挑战，但他们也有自己的优点，特别是对于依赖AI而非以其为核心的服务。

对于大型企业而言，年拥有成本$65,000似乎在可管理范围内，但对大多数企业来说，这仍然是一个不小的数字。不要忽视人才和维护的额外费用，这可能使总成本达到$200,000-$250,000或更高。

虽然拥有模型让你可以控制数据和使用，然而你每天需要处理22.2百万字以上的用户请求，以及相应的后勤资源来管理这些需求。对于许多用例，自建服务与使用API之间的经济效益仍不明确。

应对类人AI技术的伦理挑战

基础科学探索：NTT研究战略中的小野和司见解

Most people like

elsaspeak

使用ELSA的人工智能驱动应用程序，提升您的英语发音技巧。

英语发音其他

KardsAI

28K

AI驱动的即时学习闪卡应用程序，助你高效掌握新知识。利用智能算法，这款应用可根据你的学习习惯和需求，快速生成个性化的闪卡，让学习过程更加轻松和高效。无论你是学生、专业人士还是终身学习者，AI闪卡应用程序都会帮助你在短时间内提升记忆与理解能力。

闪卡 AI教育助手

Felo

1.2M

全球多语言AI搜索引擎：获取知识的全新途径在这个信息爆炸的时代，全球知识的获取变得越来越重要。我们的多语言AI搜索引擎致力于通过先进的人工智能技术，帮助用户跨越语言障碍，轻松搜索世界各地的知识资源。无论您是寻找专业领域的深度信息，还是日常生活中的实用建议，我们的搜索引擎都能提供精准、快速的结果。探索前所未有的知识世界，从这里开始。

多语言搜索引擎 AI聊天机器人

Oversight

13.3K

人工智能驱动的企业支出风险管理平台，为企业提供智能化解决方案。通过数据分析与预测，这个平台帮助企业识别潜在风险，从而优化支出策略和提升财务透明度。这不仅增强了企业的决策能力，还实现了成本控制与资源配置的智能化。

基于人工智能的平台人工智能知识库

Find AI tools in YBX