Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Dirigido a ingenieros de fiabilidad, arquitectos de plataforma y tech leads con experiencia previa en prácticas SRE que necesitan operar con autonomía en entornos de producción complejos, este curso de nivel avanzado aborda la disciplina desde una perspectiva de diseño sistémico y toma de decisiones bajo ambigüedad. A lo largo de ocho horas, los participantes aprenderán a arquitecturar sistemas de SLIs/SLOs alineados con la experiencia de usuario real, a diseñar soluciones de observabilidad distribuida para arquitecturas de microservicios, a automatizar la respuesta a incidentes mediante runbooks ejecutables y a anticipar puntos de fallo estructural a través de análisis FMEA; el resultado concreto es que cada participante será capaz de auditar, rediseñar y defender ante stakeholders técnicos y de negocio una estrategia de fiabilidad completa, desde la definición de objetivos hasta el cierre del ciclo de aprendizaje post-incidente.
Al finalizar el curso, los participantes serán capaces de:
Bloque 1 — Diseño avanzado de SLIs, SLOs y política de error budget. Se aborda cómo traducir requisitos de negocio ambiguos en indicadores y objetivos de nivel de servicio que reflejen con precisión la experiencia de usuario real. A partir de ahí se examina la anatomía de una política de error budget: ventanas de tiempo, umbrales de consumo y los criterios que permiten detectar inconsistencias en políticas ya desplegadas. El bloque culmina con la mecánica de la decisión go/no-go: cómo evaluar el impacto de un despliegue acelerado sobre el presupuesto disponible y cómo argumentar esa recomendación ante equipos de producto y dirección técnica.
Bloque 2 — Alerting de alta precisión y automatización de la respuesta a incidentes. Se analiza en profundidad la degradación de la calidad del alerting en sistemas maduros —ratio de falsos positivos, alert fatigue y su efecto sobre el MTTD— y se aplican técnicas de ajuste basadas en datos históricos y análisis de señal/ruido para optimizar las reglas existentes sin abrir ventanas de ceguera. A continuación se trabaja la automatización extremo a extremo de la detección y el escalado de incidentes: diseño de runbooks ejecutables, integración con sistemas de on-call y validación en entornos de producción simulados para garantizar la eliminación efectiva de pasos manuales repetitivos.
Bloque 3 — Observabilidad distribuida y análisis de fiabilidad estructural. Se arquitectura una solución de observabilidad de tres pilares —métricas, logs y trazas correlacionadas— para sistemas de microservicios con dependencias externas, prestando especial atención a la propagación de contexto, la cardinalidad y el coste operativo de cada capa. Sobre esa base de visibilidad se introduce el análisis de modo de fallo y efecto (FMEA) como herramienta de ingeniería proactiva: cómo construir la matriz de fallos, cómo puntuar severidad, ocurrencia y detectabilidad, y cómo priorizar las mitigaciones por impacto real en fiabilidad del sistema.
Bloque 4 — Gestión post-incidente y cultura de aprendizaje sistémico. Se cierra el ciclo de fiabilidad con el diseño de un proceso de post-mortem blameless que vaya más allá del documento formal y se convierta en un mecanismo estructurado de extracción de conocimiento organizacional. Se trabajan la plantilla, la facilitación de la sesión de revisión, los criterios de acción correctiva y la trazabilidad de las mejoras resultantes hasta su cierre verificado, conectando el aprendizaje individual del incidente con la evolución continua de la arquitectura y los SLOs.
kubectl instalado localmente (versión ≥ 1.28) o acceso a terminal web integrada en la plataforma.Se requiere haber completado el curso SRE02 o disponer de experiencia equivalente demostrable en los siguientes ámbitos: definición y gestión operativa de SLIs/SLOs y error budgets en entornos de producción reales; respuesta a incidentes en contextos de guardia (on-call) con uso de herramientas de alerting y observabilidad (Prometheus, Grafana, OpenTelemetry o equivalentes); comprensión de arquitecturas de microservicios y sus patrones de fallo más comunes (circuit breaker, retry, timeout, bulkhead); experiencia en redacción o revisión de post-mortems. Sin esta base, los ejercicios prácticos del bloque 2 y el análisis FMEA del bloque 3 resultarán inabordables en los tiempos previstos.