企业对生成性人工智能持乐观态度,投入数十亿美元开发各种应用,包括聊天机器人和搜索工具。尽管几乎每家大型公司都在推进生成性人工智能项目,但致力于人工智能和成功将其投入生产之间存在重要区别。
位于加利福尼亚的初创公司Maxim,由前谷歌和Postman高管Vaibhavi Gangwar和Akshay Deo创立,近日推出了一个端到端的评估和观察平台,以解决这一差距。该公司还宣布获得来自Elevation Capital及其他天使投资者的300万美元资金。
Maxim专注于开发者在构建大语言模型(LLM)驱动的人工智能应用时所面临的一项重大挑战:在开发生命周期内监测各个组件。即便是微小的错误也可能损害项目的可靠性和信任度,从而导致交付延误。Maxim的平台着眼于在发布前和生产后测试和提高人工智能的质量和安全性,确立标准帮助组织优化人工智能应用的生命周期,并快速交付高质量产品。
开发生成性人工智能应用的挑战
历史上,软件开发采用确定性的方法,具备标准化的测试和迭代实践,帮助团队清晰提升质量和安全。然而,生成性人工智能的出现引入了许多变量,形成了非确定性范式。开发者需管理从使用的模型到数据和用户问题框架的各个元素,同时确保质量、安全性和性能。
组织通常有两种主要方式回应这些评估挑战:招聘人才监督每个变量,或开发内部工具,这两者都可能导致成本增加,并分散对核心业务的关注。
意识到这一需求,Gangwar和Deo推出了Maxim,以弥补生成性人工智能堆栈中的模型层和应用层之间的差距。该平台在人工智能开发生命周期中提供全面评估,从提示工程和发布前测试到发布后监控和优化。
Gangwar将Maxim的平台描述为由四个核心组件组成:实验套件、评估工具包、可观察性和数据引擎。
实验套件包含提示内容管理系统、集成开发环境、可视化工作流构建器以及外部数据源的连接器,使团队能够有效迭代提示、模型和参数。例如,团队可以在不同的模型上对客户服务聊天机器人进行不同提示的实验。
评估工具包提供统一的框架,支持人工智能驱动和人工评估,允许团队通过全面测试定量评估改善或退步。结果以仪表板的形式可视化,涵盖语调、准确性、毒性及相关性等指标。
可观察性在发布后阶段至关重要,可实时监控生产日志和自动评估,以识别和解决实时问题,确保达到质量标准。
Gangwar表示:“用户可以为生产日志上的各种质量、安全和安全信号建立自动控制。他们还可以为最重要的指标(如性能、成本和质量)设置实时警报,以检测回退情况。”
利用可观察性套件的深入洞察,用户可以快速解决问题。如果数据质量存在问题,数据引擎则允许轻松策划和丰富数据集以进行微调。
加速应用部署
尽管仍处于初始阶段,Maxim声称已帮助“数十个”早期合作伙伴,以五倍于以往的速度测试、迭代和部署其人工智能产品,目标行业包括B2B技术、生成性人工智能服务、银行金融服务及教育技术等领域,这些行业在评估方面尤为突出。随着公司业务的扩展,Maxim计划增强平台能力,重点关注中型市场和企业客户。
Maxim的平台还包括面向企业的功能,如基于角色的访问控制、合规性、团队协作和虚拟私有云中的部署选项。
尽管Maxim在标准化测试和评估的方法上很有意义,但其面临着与Dynatrace和Datadog等资金雄厚的竞争对手竞争的挑战,这些对手不断发展其产品。
Gangwar指出,许多竞争对手要么专注于性能监控、质量或可观察性,而Maxim的目标是将所有评估需求整合在一个统一的平台中。
她坚信:“开发生命周期需要全面管理与测试相关的需求,这将为可持续应用程序带来显著的生产力和质量改进。”
展望未来,Maxim打算扩大团队和运营能力,同时与更多专注于人工智能产品开发的企业建立合作关系。未来的增强功能可能包括针对质量和安全的专业领域特定评估以及开发多模态数据引擎。