Boost Academy

Dirigido a ingenieros de fiabilidad, arquitectos de plataforma y tech leads con experiencia previa en prácticas SRE que necesitan operar con autonomía en entornos de producción complejos, este curso de nivel avanzado aborda la disciplina desde una perspectiva de diseño sistémico y toma de decisiones bajo ambigüedad. A lo largo de ocho horas, los participantes aprenderán a arquitecturar sistemas de SLIs/SLOs alineados con la experiencia de usuario real, a diseñar soluciones de observabilidad distribuida para arquitecturas de microservicios, a automatizar la respuesta a incidentes mediante runbooks ejecutables y a anticipar puntos de fallo estructural a través de análisis FMEA; el resultado concreto es que cada participante será capaz de auditar, rediseñar y defender ante stakeholders técnicos y de negocio una estrategia de fiabilidad completa, desde la definición de objetivos hasta el cierre del ciclo de aprendizaje post-incidente.

Al finalizar el curso, los participantes serán capaces de:

Arquitecturar un sistema coherente de SLIs y SLOs que traduzca requisitos de negocio ambiguos en compromisos de fiabilidad medibles y alineados con la experiencia de usuario real.
Evaluar críticamente una política de error budget existente, identificando inconsistencias en ventanas de tiempo y umbrales, y argumentando una recomendación go/no-go ante decisiones de despliegue acelerado.
Optimizar una estrategia de alerting reduciendo el ratio de falsos positivos sin incrementar el tiempo medio de detección, aplicando criterios objetivos de priorización.
Automatizar la detección y escalado de incidentes mediante runbooks ejecutables que eliminen pasos manuales repetitivos en entornos de producción simulados.
Arquitecturar una solución de observabilidad distribuida —métricas, logs y trazas correlacionadas— para sistemas de microservicios con dependencias externas.
Anticipar puntos de fallo en una arquitectura propuesta aplicando análisis de modo de fallo y efecto (FMEA) y priorizando las mitigaciones por impacto en fiabilidad.
Optimizar el proceso de gestión post-incidente diseñando una plantilla de post-mortem blameless que maximice la extracción de aprendizaje sistémico.

Bloque 1 — Diseño avanzado de SLIs, SLOs y política de error budget. Se aborda cómo traducir requisitos de negocio ambiguos en indicadores y objetivos de nivel de servicio que reflejen con precisión la experiencia de usuario real. A partir de ahí se examina la anatomía de una política de error budget: ventanas de tiempo, umbrales de consumo y los criterios que permiten detectar inconsistencias en políticas ya desplegadas. El bloque culmina con la mecánica de la decisión go/no-go: cómo evaluar el impacto de un despliegue acelerado sobre el presupuesto disponible y cómo argumentar esa recomendación ante equipos de producto y dirección técnica.

Bloque 2 — Alerting de alta precisión y automatización de la respuesta a incidentes. Se analiza en profundidad la degradación de la calidad del alerting en sistemas maduros —ratio de falsos positivos, alert fatigue y su efecto sobre el MTTD— y se aplican técnicas de ajuste basadas en datos históricos y análisis de señal/ruido para optimizar las reglas existentes sin abrir ventanas de ceguera. A continuación se trabaja la automatización extremo a extremo de la detección y el escalado de incidentes: diseño de runbooks ejecutables, integración con sistemas de on-call y validación en entornos de producción simulados para garantizar la eliminación efectiva de pasos manuales repetitivos.

Bloque 3 — Observabilidad distribuida y análisis de fiabilidad estructural. Se arquitectura una solución de observabilidad de tres pilares —métricas, logs y trazas correlacionadas— para sistemas de microservicios con dependencias externas, prestando especial atención a la propagación de contexto, la cardinalidad y el coste operativo de cada capa. Sobre esa base de visibilidad se introduce el análisis de modo de fallo y efecto (FMEA) como herramienta de ingeniería proactiva: cómo construir la matriz de fallos, cómo puntuar severidad, ocurrencia y detectabilidad, y cómo priorizar las mitigaciones por impacto real en fiabilidad del sistema.

Bloque 4 — Gestión post-incidente y cultura de aprendizaje sistémico. Se cierra el ciclo de fiabilidad con el diseño de un proceso de post-mortem blameless que vaya más allá del documento formal y se convierta en un mecanismo estructurado de extracción de conocimiento organizacional. Se trabajan la plantilla, la facilitación de la sesión de revisión, los criterios de acción correctiva y la trazabilidad de las mejoras resultantes hasta su cierre verificado, conectando el aprendizaje individual del incidente con la evolución continua de la arquitectura y los SLOs.

Acceso a un entorno de laboratorio con capacidad de desplegar y destruir infraestructura efímera (se proporcionará entorno Kubernetes en sandbox o acceso equivalente vía plataforma del curso).
Herramientas de observabilidad preconfiguradas en el sandbox: Prometheus, Grafana, Loki y Tempo (o stack equivalente con métricas, logs y trazas correlacionadas).
Cliente kubectl instalado localmente (versión ≥ 1.28) o acceso a terminal web integrada en la plataforma.
Repositorio Git con acceso de escritura para versionar runbooks y plantillas de post-mortem generados durante los ejercicios.
Navegador moderno (Chrome ≥ 120, Firefox ≥ 121 o Edge ≥ 120) con JavaScript habilitado para los laboratorios interactivos.
Conexión a internet estable de al menos 10 Mbps; no se requiere VPN corporativa salvo indicación expresa del administrador de la plataforma.

Se requiere haber completado el curso SRE02 o disponer de experiencia equivalente demostrable en los siguientes ámbitos: definición y gestión operativa de SLIs/SLOs y error budgets en entornos de producción reales; respuesta a incidentes en contextos de guardia (on-call) con uso de herramientas de alerting y observabilidad (Prometheus, Grafana, OpenTelemetry o equivalentes); comprensión de arquitecturas de microservicios y sus patrones de fallo más comunes (circuit breaker, retry, timeout, bulkhead); experiencia en redacción o revisión de post-mortems. Sin esta base, los ejercicios prácticos del bloque 2 y el análisis FMEA del bloque 3 resultarán inabordables en los tiempos previstos.

Site Reliability Engineering — Avanzado

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria