Boost Academy

Curso de iniciación dirigido a perfiles técnicos que trabajan o trabajarán con servicios en producción y necesitan entender qué está ocurriendo en un sistema cuando algo falla o degrada. El curso parte de la distinción conceptual entre monitorización y observabilidad, establece los tres pilares del modelo (logs, métricas y trazas), y progresa de forma práctica a través de la lectura de logs en terminal, la interpretación de tipos de métricas, el análisis de indicadores de salud de servicios web y la consulta de dashboards de visualización. Al finalizar, el participante será capaz de leer el estado de un servicio usando las herramientas y señales propias de un entorno observable, y de distinguir una alerta que requiere acción de un falso positivo que solo genera ruido.

Al finalizar el curso, el participante será capaz de:

Identificar los tres pilares de la observabilidad y describir qué aporta cada uno al diagnóstico de un problema en producción
Describir la diferencia entre monitorización y observabilidad e identificar qué características hacen observable un sistema
Leer e interpretar entradas de log en formato texto y JSON, clasificando los eventos por gravedad y distinguiendo errores de infraestructura de errores de negocio
Ejecutar comandos básicos de consulta de logs en terminal aplicando filtros por tiempo y texto con journalctl y docker logs
Identificar los tipos básicos de métricas (contador, gauge, histograma) y clasificar indicadores operativos concretos en el tipo correcto
Identificar los indicadores de salud clave de un servicio web (latencia, tráfico, tasa de errores, saturación) y describir qué datos se necesitan para calcularlos
Consultar métricas en una interfaz de visualización e interpretar los valores observados para describir el estado del sistema en un intervalo de tiempo concreto
Identificar los componentes de un sistema de alertas y distinguir una alerta válida de un falso positivo en un conjunto de alertas disparadas

Los pilares de la observabilidad: logs, métricas y trazas — Diferencia entre monitorización (saber que algo falla) y observabilidad (poder diagnosticar por qué); los tres pilares y qué tipo de pregunta responde cada uno; por qué un sistema instrumentado con los tres pilares es más fácil de diagnosticar; qué hace observable un sistema: cardinalidad, contexto y capacidad de correlación; ejemplos concretos de cuándo se necesita cada pilar durante un incidente
Logs: lectura, interpretación y consulta — Anatomía de una entrada de log en formato texto y en JSON estructurado; campos clave: timestamp, nivel de severidad (DEBUG/INFO/WARN/ERROR/FATAL), mensaje, contexto; clasificación de eventos por gravedad y distinción entre error de infraestructura y error de negocio esperado; consulta de logs con journalctl (filtros --since, --until, -u servicio) y con docker logs (--tail, -f, --since); combinación de grep para filtrar por texto en la salida; lectura de bloques de logs con eventos mixtos para identificar la causa raíz
Métricas: tipos, señales de salud e indicadores clave — Tipos de métricas: contador (valor acumulado, solo crece), gauge (valor instantáneo, sube y baja), histograma (distribución de valores continuos para calcular percentiles); cómo clasificar un indicador real en el tipo correcto; las cuatro señales doradas del SRE: latencia (p50, p95, p99), tráfico (req/s), tasa de errores (errores/total × 100) y saturación (agotamiento de recursos); datos necesarios para calcular cada indicador; diferencia entre métricas de servicio (latencia, errores) y métricas de infraestructura (CPU, memoria)
Dashboards y alertas — Consulta de métricas en un dashboard de Grafana: paneles de contador (necesitan tasa de cambio), paneles de gauge (valor actual), histogramas de latencia y percentiles; interpretación de un intervalo temporal: línea de base, pico transitorio vs tendencia sostenida; identificar el indicador más preocupante cuando varios señalan problemas simultáneos; componentes de una alerta: condición (qué métrica), umbral (valor que la dispara), canal de notificación (a quién avisa); criterios para clasificar una alerta como válida (requiere acción, impacto real) o como falso positivo (comportamiento predecible, sin intervención necesaria); alert fatigue y cómo el ruido de falsos positivos degrada la respuesta operativa

Terminal bash o zsh con acceso a journalctl (Linux/WSL2) para los ejercicios de consulta de logs de systemd
Docker Desktop 4.x o Docker Engine 24.x para los ejercicios con docker logs
Acceso a Grafana Play (play.grafana.org) o instancia local de Grafana con un dashboard de ejemplo precargado para los ejercicios de visualización
Conexión a internet para acceder a Grafana Play si no se usa instancia local

No se requiere experiencia previa en observabilidad, SRE ni administración de sistemas. Se asume que el participante puede abrir una terminal, ejecutar comandos básicos (ls, cd, navegar por directorios) y entiende a nivel intuitivo qué es un servicio web que responde peticiones HTTP. No es necesario haber trabajado con Grafana, Prometheus ni ninguna herramienta de observabilidad específica.

Observabilidad: fundamentos y práctica

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Microcertificados relacionados

Detalles de la convocatoria