Boost Academy

Este curso está dirigido a profesionales técnicos —desarrolladores, operadores de sistemas o ingenieros de infraestructura— que se aproximan por primera vez a la disciplina SRE y desean comprender sus fundamentos dentro de entornos de servicios digitales en producción. A lo largo de las ocho horas de formación, la persona participante conocerá el modelo de fiabilidad basado en SLI, SLO y SLA, aprenderá a interpretar el estado del error budget de un servicio y manejará las métricas esenciales de latencia, disponibilidad y tasa de errores en una herramienta de monitoreo estándar; además, explorará los principios de gestión de toil, el flujo de respuesta ante incidentes y la lectura crítica de dashboards de observabilidad. Al finalizar, la persona será capaz de desenvolverse con criterio en las tareas operativas básicas de un equipo SRE, aplicar un runbook ante incidentes de baja complejidad y comunicar con precisión el estado de fiabilidad de un servicio usando el lenguaje propio de la disciplina.

Describir los conceptos fundamentales del modelo de fiabilidad SRE —SLI, SLO, SLA y error budget— distinguiendo su propósito y su relación mediante ejemplos concretos de servicios reales.
Describir el flujo estándar de gestión de incidentes (detección, escalado, mitigación y comunicación) e identificar los criterios que determinan la severidad de una alerta dentro de un conjunto de notificaciones operativas.
Identificar el estado del error budget y el tipo de toil presentes en escenarios operativos dados, justificando las decisiones con los criterios SRE correspondientes.
Ejecutar consultas de métricas básicas de latencia, disponibilidad y tasa de errores en una herramienta de monitoreo guiada, e interpretar los resultados obtenidos en el contexto del servicio analizado.
Aplicar, siguiendo guía estructurada, un runbook ante un incidente de baja complejidad y la lectura de un dashboard de observabilidad para detectar anomalías visibles en un escenario simulado de degradación de servicio.

Bloque 1 — Fundamentos de fiabilidad: SLI, SLO, SLA y error budget El curso arranca estableciendo el vocabulario esencial de la disciplina. Se estudian los indicadores de nivel de servicio (SLI) como medidas cuantitativas del comportamiento observable de un sistema, los objetivos de nivel de servicio (SLO) como umbrales internos de fiabilidad acordados por el equipo, y los acuerdos de nivel de servicio (SLA) como compromisos contractuales con clientes o usuarios. A partir de esta distinción, se introduce el concepto de error budget —el margen de error tolerable derivado del SLO— y se practica su lectura e interpretación sobre un dashboard predefinido con datos de consumo reales, de forma que la persona participante pueda determinar el estado actual del presupuesto de errores de un servicio y anticipar decisiones operativas.

Bloque 2 — Toil: identificación y criterios de automatización Se examina el concepto de toil tal como lo define la práctica SRE: trabajo manual, repetitivo, carente de valor duradero y escalable con el tráfico del servicio. Mediante el análisis de listas de tareas operativas representativas, la persona aprende a distinguir qué actividades califican como toil y cuáles no, y a argumentar cuáles son candidatas a automatización según los criterios de la disciplina. Este bloque sienta las bases para comprender por qué la reducción de toil es un objetivo estructural del rol SRE y no una preferencia personal.

Bloque 3 — Observabilidad y monitoreo en la práctica Se presenta el ecosistema de herramientas de observabilidad —con Prometheus y Grafana como referencia principal— y se trabajan las tres señales operativas básicas: latencia, disponibilidad y tasa de errores. La persona ejecuta consultas guiadas sobre métricas reales o simuladas, interpreta los valores obtenidos y practica la lectura de dashboards de observabilidad para detectar anomalías en un escenario de degradación de servicio. Se aborda también la clasificación de alertas: cómo distinguir una alerta de alta severidad que requiere acción inmediata de una notificación meramente informativa, aplicando criterios de prioridad definidos.

Bloque 4 — Gestión de incidentes y uso de runbooks El bloque final integra los aprendizajes anteriores en el contexto de la respuesta a incidentes. Se describe el flujo básico de gestión: detección del problema, escalado al responsable adecuado, mitigación del impacto y comunicación a las partes afectadas. Mediante un caso de estudio, la persona analiza cómo se aplica este flujo en una situación concreta. A continuación se introduce el runbook como artefacto operativo clave, y la persona lo aplica de forma guiada ante un escenario de incidente de baja complejidad, ejecutando cada paso en el orden establecido y registrando las acciones realizadas.

Navegador web moderno: Chrome 110+, Firefox 110+ o Edge 110+ con JavaScript habilitado.
Acceso a entorno de laboratorio provisto por el curso: se facilitará una instancia de Grafana con Prometheus preconfigurados accesible vía navegador; no es necesario instalar nada localmente.
Conexión a internet estable: mínimo 10 Mbps recomendados para acceder al entorno de laboratorio y los materiales multimedia.
Terminal con cliente SSH (opcional pero recomendado): para los ejercicios de consulta de métricas en Prometheus desde línea de comandos; en Windows se puede usar PowerShell, Windows Terminal o PuTTY.
Cuenta de acceso a la plataforma HAB: credenciales activas para acceder a los materiales del curso, los laboratorios guiados y las actividades de evaluación.

Para aprovechar este curso es recomendable contar con los siguientes conocimientos y experiencias previas:

Conceptos básicos de sistemas y redes: comprensión general de qué es un servidor, un servicio web, una API y los fundamentos del modelo cliente-servidor.
Familiaridad con entornos Linux: capacidad para navegar por la línea de comandos, leer logs básicos y ejecutar comandos de diagnóstico sencillos (ping, curl, top, etc.).
Exposición a entornos de producción: haber trabajado aunque sea puntualmente en un equipo de operaciones, desarrollo o soporte técnico que gestione servicios en producción.
Noción de métricas y dashboards: haber visualizado alguna vez una herramienta de monitoreo o gráfica de métricas, sin necesidad de conocer su configuración interna.

No se requiere experiencia previa en SRE ni conocimiento de Prometheus, Grafana u otras herramientas de observabilidad.

Site Reliability Engineering — Iniciación

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria