Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales técnicos —desarrolladores, operadores de sistemas o ingenieros de infraestructura— que se aproximan por primera vez a la disciplina SRE y desean comprender sus fundamentos dentro de entornos de servicios digitales en producción. A lo largo de las ocho horas de formación, la persona participante conocerá el modelo de fiabilidad basado en SLI, SLO y SLA, aprenderá a interpretar el estado del error budget de un servicio y manejará las métricas esenciales de latencia, disponibilidad y tasa de errores en una herramienta de monitoreo estándar; además, explorará los principios de gestión de toil, el flujo de respuesta ante incidentes y la lectura crítica de dashboards de observabilidad. Al finalizar, la persona será capaz de desenvolverse con criterio en las tareas operativas básicas de un equipo SRE, aplicar un runbook ante incidentes de baja complejidad y comunicar con precisión el estado de fiabilidad de un servicio usando el lenguaje propio de la disciplina.
Bloque 1 — Fundamentos de fiabilidad: SLI, SLO, SLA y error budget El curso arranca estableciendo el vocabulario esencial de la disciplina. Se estudian los indicadores de nivel de servicio (SLI) como medidas cuantitativas del comportamiento observable de un sistema, los objetivos de nivel de servicio (SLO) como umbrales internos de fiabilidad acordados por el equipo, y los acuerdos de nivel de servicio (SLA) como compromisos contractuales con clientes o usuarios. A partir de esta distinción, se introduce el concepto de error budget —el margen de error tolerable derivado del SLO— y se practica su lectura e interpretación sobre un dashboard predefinido con datos de consumo reales, de forma que la persona participante pueda determinar el estado actual del presupuesto de errores de un servicio y anticipar decisiones operativas.
Bloque 2 — Toil: identificación y criterios de automatización Se examina el concepto de toil tal como lo define la práctica SRE: trabajo manual, repetitivo, carente de valor duradero y escalable con el tráfico del servicio. Mediante el análisis de listas de tareas operativas representativas, la persona aprende a distinguir qué actividades califican como toil y cuáles no, y a argumentar cuáles son candidatas a automatización según los criterios de la disciplina. Este bloque sienta las bases para comprender por qué la reducción de toil es un objetivo estructural del rol SRE y no una preferencia personal.
Bloque 3 — Observabilidad y monitoreo en la práctica Se presenta el ecosistema de herramientas de observabilidad —con Prometheus y Grafana como referencia principal— y se trabajan las tres señales operativas básicas: latencia, disponibilidad y tasa de errores. La persona ejecuta consultas guiadas sobre métricas reales o simuladas, interpreta los valores obtenidos y practica la lectura de dashboards de observabilidad para detectar anomalías en un escenario de degradación de servicio. Se aborda también la clasificación de alertas: cómo distinguir una alerta de alta severidad que requiere acción inmediata de una notificación meramente informativa, aplicando criterios de prioridad definidos.
Bloque 4 — Gestión de incidentes y uso de runbooks El bloque final integra los aprendizajes anteriores en el contexto de la respuesta a incidentes. Se describe el flujo básico de gestión: detección del problema, escalado al responsable adecuado, mitigación del impacto y comunicación a las partes afectadas. Mediante un caso de estudio, la persona analiza cómo se aplica este flujo en una situación concreta. A continuación se introduce el runbook como artefacto operativo clave, y la persona lo aplica de forma guiada ante un escenario de incidente de baja complejidad, ejecutando cada paso en el orden establecido y registrando las acciones realizadas.
Para aprovechar este curso es recomendable contar con los siguientes conocimientos y experiencias previas:
No se requiere experiencia previa en SRE ni conocimiento de Prometheus, Grafana u otras herramientas de observabilidad.