← 返回所有文章
敏捷中的可观测性:让系统变得可理解
敏捷中的可观测性:让系统变得可理解
可观测性是从系统外部输出理解其内部状态的能力。对Scrum团队而言,这不是软件构建完成后由平台团队处理的基础设施问题——它是软件本身的质量属性,应纳入完成定义。无法在生产环境中被理解的软件尚未完成,无论其是否通过开发环境中的功能测试。
三大支柱:日志、指标与追踪
日志回答「发生了什么」——带时间戳的离散事件记录,最好采用可解析的结构化格式。指标回答「系统性能如何」——随时间变化的数值度量(请求率、错误率、延迟、资源利用率),比日志分辨率低但存储和查询成本低得多,是告警和仪表板的主要信号。追踪回答「请求如何流经系统」——在微服务架构中不可或缺,跟踪单个请求经过所有相关服务时的路径和耗时。
迭代式构建与SLI/SLO/错误预算
实用的迭代方法按顺序推进三层:首先是结构化日志(投资回报率最高);其次是指标(告警和仪表板的基础);最后是分布式追踪(最复杂,但在多服务架构中价值最大)。一旦建立了有意义的指标,SRE框架便能让产品负责人以结构化方式讨论可靠性作为产品属性:服务水平指标(SLI)、服务水平目标(SLO)和错误预算,将可靠性转化为产品决策,而非纯粹的技术决策。
XNM咨询与敏捷团队合作,推动将可观测性、测试和DevOps等技术质量规范与产品和业务成果相连接的交付实践。了解更多关于我们的项目与计划交付服务。