在我们的数字化世界中,关键软件系统和服务的可靠运行对企业成功至关重要。系统的停机或性能问题可能导致一系列负面后果,例如潜在客户转向竞争对手,从而造成收入损失,以及当员工无法按时完成任务时,他们的生产力下降。
对网站可靠性工程师(SRE)和DevOps专业人员而言,维护关键网站和应用程序犹如一场持续的战斗。然而,令人振奋的消息是,生成性人工智能正在提升传统的可观测性方法,加速解决可靠性、安全性和速度挑战。
人工智能的优势
传统上,监控和可观测性工作主要集中在从噪声中识别信号以及诊断未知问题,以便迅速修复。生成性人工智能简化了这一过程,使SRE和DevOps团队能够更快速、更自信地应对事故。
以刚刚上任的值班工程师为例,他们对组织的系统并没有深入了解。如果深夜接到关于系统异常的警报,他们可以与人工智能助手进行对话,从而快速获取关键信息。通过提问如“这个系统的目的是什么?”或“有哪些其他系统与其连接?”等问题,工程师能够获得有价值的上下文信息,得益于支撑生成性人工智能的大型语言模型(LLM)。
令人印象深刻的是,工程师能够使用自然语言与LLM进行互动,无需掌握复杂的查询语言。这种对话方式让他们能够迅速访问所需信息,有效进行故障排查。
赋能集体知识
生成性人工智能不仅仅是回应查询,还能主动为SRE提供相关上下文。例如,工程师在收到警报前,可以在Slack频道中查看到全面的问题摘要,包括已经采取的所有行动和相关方信息,使他们可立即准备回应,而无需浪费时间了解进展。
LLM还可以提供类似事件时所使用的行动手册快照,工程师可以选择自己执行或者指示LLM进行相应操作。这减少了很多猜测,提高了问题解决的效率,无论工程师的经验如何。
像T-Mobile荷兰这样的公司,已经在利用这一功能,通过人工智能技术支持其网络运营,提高网络可靠性并快速解决问题。
未来展望
目前,生成性人工智能作为助手提供上下文和支持,但其角色将不断发展。在不久的将来,生成性人工智能可能会自动执行许多工程师的响应。如果一个AI代理反复识别特定的警报模式,它就可能自主地执行适当的行动手册并确认所采取的措施。
此外,将可观测性数据与其他组织系统(如ERP和安全系统)相结合,将使工程师能够提出更复杂、以业务为关键的查询。工程师可能会从询问历史警报,转向理解类似事件对收入的影响或对供应链的操作意义。
转型工具
虽然可观测性专业人员一直拥有强大的工具,但生成性人工智能引入了一种创新的方法来提升他们的工作流程。重要的是,它并没有取代SRE或DevOps专业人员,而是减轻了他们日常工作的繁重,使他们能够专注于更高级的问题解决。
通过促进对相关信息的获取、增强洞察力和加速决策过程,生成性人工智能与可观测性数据的结合标志着重要的突破,真正是行业的游戏规则改变者。