← Todos los artículos

Ingeniería de fiabilidad de sitios y Scrum: construir para producción

By XNM Technologies · March 27, 2023 · 1 min read
Ingeniería de fiabilidad de sitios y Scrum: construir para producción

Un SLI (Indicador de Nivel de Servicio) es una medida cuantitativa del comportamiento de un servicio desde la perspectiva del usuario (disponibilidad, latencia, tasa de error). Un SLO (Objetivo de Nivel de Servicio) es un objetivo para un SLI — un compromiso operativo que el equipo debe mantener y que el Product Owner debería asumir. El presupuesto de error es el complemento aritmético del SLO: un SLO de disponibilidad del 99,9 % deja un presupuesto de indisponibilidad de aproximadamente 43 minutos al mes. Cuando el presupuesto está sano, el equipo puede entregar de forma agresiva; cuando está agotado, la política es congelar nuevas funcionalidades hasta que se recupere. Esto transforma la tensión funcionalidades/fiabilidad en una política basada en datos, acordada de antemano.

  • Toil: trabajo operativo manual, repetitivo y automatizable. Medir la parte del tiempo del equipo dedicada a él crea una línea de trabajo de ingeniería en el backlog.

  • Postmortems sin culpa: proceso estructurado para aprender de los incidentes; las acciones resultantes pertenecen al product backlog.

  • Introducir los conceptos SRE progresivamente — empezar con un solo SLO, un presupuesto de error, un postmortem.

Si tu equipo Scrum tiene dificultades para equilibrar la entrega de funcionalidades con las exigencias de fiabilidad de un sistema en producción, la asesoría en entrega de programas y proyectos de XNM puede ayudarte a diseñar un modelo de entrega que incorpore los principios SRE sin abrumar a un equipo que aún está desarrollando su madurez en Scrum.