随着生成式人工智能需求的急剧增加,确保其安全可靠的部署变得比以往任何时候都更加重要。企业希望开发大型语言模型(LLM)应用,能够持续产生高质量的输出,同时避免潜在的陷阱。
为此,微软发布了新的Azure AI工具,旨在解决生成式人工智能中常见的问题,如自动幻觉,以及安全威胁,例如提示注入(prompt injection)。后者是指攻击者操纵模型生成有害或敏感内容,例如利用微软的AI图像生成器制作的深伪图像(deepfakes)。
微软新工具的关键特性
目前,这些Azure AI的增强功能仍处于预览阶段,预计将在未来几个月内广泛推出,但尚未提供具体发布日期。
提示注入攻击可能会危及安全,因为恶意行为者可以修改输入提示,从而绕过正常的模型操作和安全控制。微软通过在Azure AI中集成提示屏障(Prompt Shields)来应对这种攻击。这一高级功能利用机器学习(ML)算法和自然语言处理技术,分析输入提示及第三方数据中的恶意意图,阻止有害输入到达模型。
提示屏障将与微软的三种AI服务协同工作:Azure OpenAI Service、Azure AI Content Safety和Azure AI Studio。
提高可靠性和安全性
除了阻止提示注入攻击外,微软还致力于增强生成式AI应用的可靠性。新的工具包括用于安全系统消息的预构建模板和一个名为“真实性检测(Groundedness Detection)”的功能。
这些预构建模板帮助开发者创建安全、负责任且数据驱动的系统消息,而真实性检测则利用经过微调的定制语言模型识别生成文本中的幻觉或不准确性。这两项功能将整合到Azure AI Studio和Azure OpenAI Service中。
此外,真实性指标将配备自动评估功能,允许开发者对生成式AI应用进行压力测试,以识别风险和安全问题。这些评估将评估应用被利用和生成不当内容的可能性,并提供自然语言解释,以帮助开发者制定有效的应对措施。
微软负责AI的首席产品官莎拉·伯德(Sarah Bird)强调,许多组织在对生成式AI应用进行全面压力测试方面缺乏资源。创建反映诸如越狱攻击(jailbreak attacks)等新兴风险的高质量测试数据集具有挑战性,评估结果的解读有时也相当复杂。
生产应用的实时监控
一旦应用投入生产,微软将提供实时监控功能。这些工具将跟踪输入和输出交互,触发提示屏障等安全机制。用户可以通过Azure OpenAI Service和Azure AI Studio访问此监控功能,该系统提供被阻止用户输入和模型输出的详细可视化,按严重程度分类。
这样的可视化使开发者能够识别有害请求的趋势,并根据这些趋势优化内容过滤器和安全控制,从而提升应用安全性。
微软在增强其AI服务的过程中,最初专注于OpenAI的模型,随后又与如Mistral等其他公司建立了合作关系。穆斯塔法·苏莱曼(Mustafa Suleyman)和Inflection AI团队的加入,标志着微软在多样化AI能力方面的一项战略努力。
凭借这些新的安全和可靠性工具,微软旨在赋能开发者构建安全的生成式AI应用,进一步加强其对企业在快速发展的科技环境中所需可靠AI解决方案的承诺。