Galileo,企业生成式人工智能的领军者,近日推出了Luna,这是一套革命性的评估基础模型(Evaluation Foundation Models,EFMs),旨在改变企业对其生成式人工智能系统的评估方式。Luna 针对速度、成本和准确性等关键挑战进行了优化,这些问题曾阻碍生成式人工智能在生产环境中的广泛应用。
“Galileo开发Luna的目的是克服现有生成式人工智能评估方法的不足,这些方法往往速度慢、成本高且不够精确。”Galileo的联合创始人兼首席执行官维克拉姆·查特吉(Vikram Chatterji)表示。“我们意识到,在生产环境中,需要超低延迟、具有成本效益和高准确度的评估。”
人工智能评估的重要里程碑
Luna的发布对Galileo来说是一个重要的里程碑,自2021年初以来,Galileo一直在推动企业生成式人工智能(GenAI)的发展。公司对于推进人工智能评估的承诺,体现在近一年的严格研发中,最终促成了Luna的问世。
在一项基准测试中,Luna的AUROC得分达到了0.78,超越了GPT-3.5、Trulens Groundedness和RAGAS Faithfulness等行业领先竞品。
专用模型重新定义评估标准
Luna的创新核心在于其专为评估任务设计的小型语言模型,这些任务包括幻觉检测、上下文质量评估、数据泄漏防护和恶意提示识别。这种专业聚焦使Luna在速度、成本和准确性三个关键指标上表现出色。
“采用定制的小型语言模型,使Luna的评估成本降低97%,速度提升至GPT-3.5的11倍。”查特吉解释道。此外,Luna在检测幻觉和个人身份信息(PII)等问题时,比以往方法提升了多达20%的准确率。
在对每月评估100万条查询的成本分析中,Luna的费用仅为175美元,远低于GPT-3.5(6248美元)、RAGAS Faithfulness(7994美元)和Trulens Groundedness(16641美元)。
无需传统数据集的创新
Luna的一大亮点是其无需传统的真实数据集就能发挥作用。通过利用在多领域特定数据集上精炼的预训练评估模型,Luna简化了评估过程,无需耗时的自定义测试集。
Luna的潜在应用广泛。查特吉指出,它在需要高可靠性的行业(如医疗、金融和电信)的表现尤为出色。“Luna对于每月处理数百万条查询的大型企业应用特别有效,”他补充道。
无与伦比的速度与持续改进
Galileo的Luna提供卓越的速度,处理单条查询仅需0.232秒,显著优于GPT-3.5(2.5秒)和RAGAS Faithfulness(5.4秒)。
Luna的应用场景涵盖从实时人工智能输出监控到确保聊天机器人交互安全等多种情况。借助Galileo的Fine Tune产品,Luna可以根据特定客户需求进行定制,在制药和金融服务等关键领域实现95%以上的准确性。
随着生成式人工智能领域的发展,Galileo致力于对Luna的持续创新,重点扩展任务支持、提升准确度,并进一步降低成本和延迟。“Galileo致力于推动人工智能评估,帮助组织部署可信赖的人工智能解决方案。”查特吉表示。“随着生成式人工智能的不断演进,我们将为客户提供前沿能力,增强用户信心。”
Luna的推出,使Galileo在企业生成式人工智能评估领域的领先地位更加巩固。当企业寻求利用生成式人工智能的潜力时,Luna快速、经济且准确的评估将对推动这一变革性技术的广泛采用起到至关重要的作用。