探索Maxim：全面评估平台，助您应对AI质量挑战

Home AI News CN 探索Maxim：全面评估平台，助您应对AI质量挑战

企业对生成性人工智能持乐观态度，投入数十亿美元开发各种应用，包括聊天机器人和搜索工具。尽管几乎每家大型公司都在推进生成性人工智能项目，但致力于人工智能和成功将其投入生产之间存在重要区别。

位于加利福尼亚的初创公司Maxim，由前谷歌和Postman高管Vaibhavi Gangwar和Akshay Deo创立，近日推出了一个端到端的评估和观察平台，以解决这一差距。该公司还宣布获得来自Elevation Capital及其他天使投资者的300万美元资金。

Maxim专注于开发者在构建大语言模型（LLM）驱动的人工智能应用时所面临的一项重大挑战：在开发生命周期内监测各个组件。即便是微小的错误也可能损害项目的可靠性和信任度，从而导致交付延误。Maxim的平台着眼于在发布前和生产后测试和提高人工智能的质量和安全性，确立标准帮助组织优化人工智能应用的生命周期，并快速交付高质量产品。

开发生成性人工智能应用的挑战

历史上，软件开发采用确定性的方法，具备标准化的测试和迭代实践，帮助团队清晰提升质量和安全。然而，生成性人工智能的出现引入了许多变量，形成了非确定性范式。开发者需管理从使用的模型到数据和用户问题框架的各个元素，同时确保质量、安全性和性能。

组织通常有两种主要方式回应这些评估挑战：招聘人才监督每个变量，或开发内部工具，这两者都可能导致成本增加，并分散对核心业务的关注。

意识到这一需求，Gangwar和Deo推出了Maxim，以弥补生成性人工智能堆栈中的模型层和应用层之间的差距。该平台在人工智能开发生命周期中提供全面评估，从提示工程和发布前测试到发布后监控和优化。

Gangwar将Maxim的平台描述为由四个核心组件组成：实验套件、评估工具包、可观察性和数据引擎。

实验套件包含提示内容管理系统、集成开发环境、可视化工作流构建器以及外部数据源的连接器，使团队能够有效迭代提示、模型和参数。例如，团队可以在不同的模型上对客户服务聊天机器人进行不同提示的实验。

评估工具包提供统一的框架，支持人工智能驱动和人工评估，允许团队通过全面测试定量评估改善或退步。结果以仪表板的形式可视化，涵盖语调、准确性、毒性及相关性等指标。

可观察性在发布后阶段至关重要，可实时监控生产日志和自动评估，以识别和解决实时问题，确保达到质量标准。

Gangwar表示：“用户可以为生产日志上的各种质量、安全和安全信号建立自动控制。他们还可以为最重要的指标（如性能、成本和质量）设置实时警报，以检测回退情况。”

利用可观察性套件的深入洞察，用户可以快速解决问题。如果数据质量存在问题，数据引擎则允许轻松策划和丰富数据集以进行微调。

加速应用部署

尽管仍处于初始阶段，Maxim声称已帮助“数十个”早期合作伙伴，以五倍于以往的速度测试、迭代和部署其人工智能产品，目标行业包括B2B技术、生成性人工智能服务、银行金融服务及教育技术等领域，这些行业在评估方面尤为突出。随着公司业务的扩展，Maxim计划增强平台能力，重点关注中型市场和企业客户。