← 返回所有文章
网站可靠性工程与Scrum:为生产环境而构建
网站可靠性工程与Scrum:为生产环境而构建
服务级别指标(SLI)是从用户视角对服务行为的量化度量——可用性、延迟、错误率是最常见的SLI。服务级别目标(SLO)是SLI的目标值,是团队必须维护的运营承诺,在Scrum语境中应由产品负责人(PO)承担所有权。这些承诺代表产品对用户的可靠性保证;决定何时接受可靠性风险以换取更快的功能交付,从本质上是产品决策,而非工程决策。
错误预算是SLO的算术补集:99.9%可用性SLO意味着每月约43分钟的错误预算。当错误预算充裕时,团队可以大胆发布;当错误预算耗尽时,正确的响应是暂停功能发布,投入可靠性改善直至预算恢复。这将功能与可靠性之间的张力,从PO与工程团队之间的政治博弈,转变为基于数据、预先商定的政策——错误预算告诉你当前处于哪种模式。
「Toil」是SRE对手动、重复、可自动化运维工作的称谓。衡量团队花在Toil上的时间占比,即可创造出可规划、可优先排序的工程改善任务。
「无责事后分析」是从事件中学习而不追究个人责任的结构化流程——产生的行动项目属于产品待办事项列表,PO应像对待其他任何待办项一样对其进行估算和优先级排序。
渐进引入SRE概念:从最关键的用户可见服务的单一SLO开始,定义错误预算,在下一次重大事件后开展一次无责事后分析,衡量一个Sprint的Toil。
如果您的Scrum团队在平衡功能交付与生产系统可靠性需求方面存在困难,XNM的项目群与项目交付咨询服务可以帮助您设计一个融入SRE原则的交付模式,同时不会压垮仍在积累Scrum成熟度的团队。