开源人工智能迎头赶上专有领导者——新基准报告揭示新趋势

Home AI News CN 开源人工智能迎头赶上专有领导者——新基准报告揭示新趋势

人工智能基准报告揭示开源模型性能跃升

人工智能初创公司Galileo于周一发布了一份重要的基准报告，表明开源语言模型正在迅速缩小与专有模型之间的性能差距。这一变化可能会 democratize 高级人工智能能力，促进各行业的创新。

在其第二届年度幻觉指数中，Galileo对22个领先的大型语言模型进行了评估，以检验其生成不准确信息的倾向。尽管封闭源模型仍占据首位，但在短短八个月内，二者之间的性能差距已大幅缩小。

Galileo的联合创始人兼首席执行官Vikram Chatterji表示：“开源模型的显著进步令人震惊。在2023年10月，前五名模型主要是来自OpenAI的封闭源API，而现在，开源模型正在追赶上来。”

这一趋势可能降低初创企业和研究人员的准入门槛，同时迫使成熟企业加快创新步伐，以防失去竞争优势。

Anthropic的Claude 3.5 Sonnet表现突出

Anthropic的Claude 3.5 Sonnet成为整体表现最佳的模型，超越了去年排名中的OpenAI产品。这一变化突显了人工智能市场的动态，其新兴玩家正在挑战既有领导者。

Chatterji评论道：“我们对Anthropic最新模型印象深刻。Sonnet在短、中、长上下文中的表现均出色，平均得分分别为0.97、1和1。它支持高达20万的上下文窗口，表明其能处理更大的数据集。”

该指数强调了评估成本效益和性能的重要性。Google的Gemini 1.5 Flash以显著更低的成本提供强劲表现，成为最具成本效益的模型。

Chatterji解释道：“Flash的每百万提示令牌成本为0.35美元，而Sonnet为3美元。在输出方面，Flash每百万响应令牌的成本大约为1美元，而Sonnet则为15美元。这一价格差异使得如果选择Sonnet，用户需要有相当的预算，而Flash以更低成本提供类似的性能。”

这种成本差异可能会影响希望扩展人工智能应用的企业，使其趋向于更高效的模型，即使那些模型不是性能最强的。

全球人工智能竞争：阿里巴巴取得进展

阿里巴巴的Qwen2-72B-Instruct在开源模型中表现优异，在短和中长度输入上取得高分。这一成功反映了非美国公司在人工智能领域取得巨大进展，挑战了美国在该行业的主导地位。

Chatterji认为这一现象是更广泛的人工智能民主化的一部分。他指出：“使用Llama 3和Qwen，全球团队现在都可以根据自身条件构建创新产品。”他还预测这些模型将为边缘和移动设备进行优化，带来出色的移动和网络应用。

该指数还引入了对模型在不同上下文长度（从短文本到长文档）管理的关注。这反映出AI越来越多地用于总结大量报告或分析大数据集，为企业评估AI部署所需的模型能力提供了细致的视角。

Chatterji表示：“我们旨在按照上下文长度（小、中、大）来细分性能。此外，关注成本与性能之间的关系对于决策者而言至关重要。”

研究结果表明，较大的模型并不总是表现更好，在某些情况下，较小的模型超越了其更大的同行，暗示设计的效率可以超越单纯的规模。

“Gemini 1.5 Flash模型的表现令人惊讶，超越了其较大的同类。”Chatterji指出，这表明在人工智能开发中，设计效率可以优先于规模。

展望语言模型的未来

Galileo的见解可能会显著影响企业对人工智能的采用。随着开源模型的提升和成本降低，公司可以获取强大的人工智能工具，而不必依赖昂贵的专有服务，为各行业的更广泛人工智能集成和生产力提升铺平道路。

这家初创公司专注于监控和增强人工智能系统的工具，旨在支持企业应对快速发展的语言模型领域。通过提供定期的基准测试，Galileo努力成为技术决策者的重要资源。

Chatterji表示：“我们希望企业客户和人工智能团队用户将其作为一个动态工具，以了解开发人工智能应用的最有效方法。”

随着竞争加剧，每周都有新模型出现，Galileo的基准测试提供了行业快速变化的一瞥。该公司打算每季度更新其指数，以反映开源与专有人工智能技术之间不断发展的平衡。

Chatterji预测将迎来更多创新：“我们看到大型模型正在作为高级推理的操作系统出现。未来一到两年，这些模型将在上下文长度扩展和成本降低的背景下，变得越来越通用。”

他还预测多模态模型和基于代理的系统将增加，这需要新的评估方法，并可能引发人工智能创新的又一波浪潮。

随着企业面临人工智能快速进化的挑战，像Galileo的幻觉指数这样的工具将在战略决策中发挥至关重要的作用。人工智能能力的民主化，加上对成本效益的日益关注，预示着未来先进的人工智能不仅更强大，而且在更广泛的组织中更易获得。

这种不断演变的格局既带来了机遇，也带来了挑战。虽然高绩效、成本效益高的人工智能模型的崛起可以推动创新和效率，但企业必须慎重考虑采用哪些技术以及如何有效集成。

随着开源和专有人工智能之间的界限日益模糊，企业必须保持信息灵通并适应变化，准备好在技术不断演变的过程中调整他们的战略。Galileo的基准测评不仅是展示人工智能趋势的快照，也是应对复杂、快速变化的人工智能世界的路线图。

Tripp发布Kōkua XR：针对Meta Quest用户的AI驱动冥想助手

应对大型语言模型时代的冒名顶替综合症：理解其关联性，克服自我怀疑

Most people like

Meiro

15K

使用Meiro轻松生成引人入胜的交互式内容。

互动内容 AI 内容生成器

Instabase

71.1K

通过人工智能技术实现流程自动化并充分激活数据潜力。

人工智能大型语言模型（LLMs）

AIPRM

1.9M

摘要：AIPRM是一个社区驱动的生成式AI提示库，同时也是一个高效的提示管理工具。

提示管理提示

WebWhiz

10.1K

使用WebWhiz，您可以轻松创建无须编程的聊天机器人，为您的网站增添互动体验。

人工智能聊天机器人 AI聊天机器人

Find AI tools in YBX