人工智能基准报告揭示开源模型性能跃升
人工智能初创公司Galileo于周一发布了一份重要的基准报告,表明开源语言模型正在迅速缩小与专有模型之间的性能差距。这一变化可能会 democratize 高级人工智能能力,促进各行业的创新。
在其第二届年度幻觉指数中,Galileo对22个领先的大型语言模型进行了评估,以检验其生成不准确信息的倾向。尽管封闭源模型仍占据首位,但在短短八个月内,二者之间的性能差距已大幅缩小。
Galileo的联合创始人兼首席执行官Vikram Chatterji表示:“开源模型的显著进步令人震惊。在2023年10月,前五名模型主要是来自OpenAI的封闭源API,而现在,开源模型正在追赶上来。”
这一趋势可能降低初创企业和研究人员的准入门槛,同时迫使成熟企业加快创新步伐,以防失去竞争优势。
Anthropic的Claude 3.5 Sonnet表现突出
Anthropic的Claude 3.5 Sonnet成为整体表现最佳的模型,超越了去年排名中的OpenAI产品。这一变化突显了人工智能市场的动态,其新兴玩家正在挑战既有领导者。
Chatterji评论道:“我们对Anthropic最新模型印象深刻。Sonnet在短、中、长上下文中的表现均出色,平均得分分别为0.97、1和1。它支持高达20万的上下文窗口,表明其能处理更大的数据集。”
该指数强调了评估成本效益和性能的重要性。Google的Gemini 1.5 Flash以显著更低的成本提供强劲表现,成为最具成本效益的模型。
Chatterji解释道:“Flash的每百万提示令牌成本为0.35美元,而Sonnet为3美元。在输出方面,Flash每百万响应令牌的成本大约为1美元,而Sonnet则为15美元。这一价格差异使得如果选择Sonnet,用户需要有相当的预算,而Flash以更低成本提供类似的性能。”
这种成本差异可能会影响希望扩展人工智能应用的企业,使其趋向于更高效的模型,即使那些模型不是性能最强的。
全球人工智能竞争:阿里巴巴取得进展
阿里巴巴的Qwen2-72B-Instruct在开源模型中表现优异,在短和中长度输入上取得高分。这一成功反映了非美国公司在人工智能领域取得巨大进展,挑战了美国在该行业的主导地位。
Chatterji认为这一现象是更广泛的人工智能民主化的一部分。他指出:“使用Llama 3和Qwen,全球团队现在都可以根据自身条件构建创新产品。”他还预测这些模型将为边缘和移动设备进行优化,带来出色的移动和网络应用。
该指数还引入了对模型在不同上下文长度(从短文本到长文档)管理的关注。这反映出AI越来越多地用于总结大量报告或分析大数据集,为企业评估AI部署所需的模型能力提供了细致的视角。
Chatterji表示:“我们旨在按照上下文长度(小、中、大)来细分性能。此外,关注成本与性能之间的关系对于决策者而言至关重要。”
研究结果表明,较大的模型并不总是表现更好,在某些情况下,较小的模型超越了其更大的同行,暗示设计的效率可以超越单纯的规模。
“Gemini 1.5 Flash模型的表现令人惊讶,超越了其较大的同类。”Chatterji指出,这表明在人工智能开发中,设计效率可以优先于规模。
展望语言模型的未来
Galileo的见解可能会显著影响企业对人工智能的采用。随着开源模型的提升和成本降低,公司可以获取强大的人工智能工具,而不必依赖昂贵的专有服务,为各行业的更广泛人工智能集成和生产力提升铺平道路。
这家初创公司专注于监控和增强人工智能系统的工具,旨在支持企业应对快速发展的语言模型领域。通过提供定期的基准测试,Galileo努力成为技术决策者的重要资源。
Chatterji表示:“我们希望企业客户和人工智能团队用户将其作为一个动态工具,以了解开发人工智能应用的最有效方法。”
随着竞争加剧,每周都有新模型出现,Galileo的基准测试提供了行业快速变化的一瞥。该公司打算每季度更新其指数,以反映开源与专有人工智能技术之间不断发展的平衡。
Chatterji预测将迎来更多创新:“我们看到大型模型正在作为高级推理的操作系统出现。未来一到两年,这些模型将在上下文长度扩展和成本降低的背景下,变得越来越通用。”
他还预测多模态模型和基于代理的系统将增加,这需要新的评估方法,并可能引发人工智能创新的又一波浪潮。
随着企业面临人工智能快速进化的挑战,像Galileo的幻觉指数这样的工具将在战略决策中发挥至关重要的作用。人工智能能力的民主化,加上对成本效益的日益关注,预示着未来先进的人工智能不仅更强大,而且在更广泛的组织中更易获得。
这种不断演变的格局既带来了机遇,也带来了挑战。虽然高绩效、成本效益高的人工智能模型的崛起可以推动创新和效率,但企业必须慎重考虑采用哪些技术以及如何有效集成。
随着开源和专有人工智能之间的界限日益模糊,企业必须保持信息灵通并适应变化,准备好在技术不断演变的过程中调整他们的战略。Galileo的基准测评不仅是展示人工智能趋势的快照,也是应对复杂、快速变化的人工智能世界的路线图。