Boost Academy

Curso dirigido a ingenieros de plataforma, SREs y profesionales de QA con experiencia previa en Prometheus que necesitan afrontar los retos de escala, fiabilidad y operación avanzada de entornos de monitorización distribuida. A lo largo de ocho horas los participantes comprenderán los patrones arquitectónicos de federación y remote write, la gestión de la cardinalidad y el rendimiento de la TSDB, y las estrategias de alta disponibilidad con Thanos o Cortex; además, aprenderán a optimizar recording rules, a auditar configuraciones complejas de Alertmanager y a automatizar el ciclo de vida de reglas y dashboards en pipelines CI/CD. El resultado concreto es que cada participante será capaz de diseñar, desplegar y mantener una solución de monitorización a escala de producción con SLOs/SLIs basados en error budgets, reduciendo de forma demostrable la latencia de evaluación y los fallos de enrutamiento de alertas.

Describir los patrones de federación, remote write y alta disponibilidad con deduplicación (Thanos / Cortex), explicando sus diferencias y criterios de elección según requisitos de escala y retención.
Explicar el impacto de la cardinalidad en la TSDB, identificar los parámetros de retención, compactación y chunk encoding, y justificar cómo los recording rules influyen en la latencia de evaluación.
Auditar un conjunto de métricas existente para detectar labels problemáticos y proponer refactors medibles que reduzcan la cardinalidad.
Optimizar recording rules en un escenario de alto tráfico, demostrando la mejora cuantificable en dashboards antes y después de la intervención.
Diseñar una arquitectura de monitorización distribuida, seleccionando el patrón adecuado y anticipando puntos de fallo con sus mitigaciones.
Automatizar el despliegue y ciclo de vida de reglas de alerting y dashboards mediante Prometheus Operator o Jsonnet/Grafonnet integrados en un pipeline CI/CD.
Evaluar una configuración de Alertmanager multiequipo, corrigiendo fallos de enrutamiento, duplicados y ausencias de inhibición en escenarios de fallo en cascada.
Diseñar un modelo de SLO/SLI basado en métricas Prometheus con error budget alerts de multiwindow burn rate siguiendo las directrices SRE de Google.

Bloque 1 — Arquitecturas distribuidas y alta disponibilidad Se estudian los dos grandes patrones para escalar Prometheus más allá de una sola instancia: la federación jerárquica y el remote write hacia almacenes de largo plazo. Se analizan los criterios de elección —latencia de consulta, retención, coste operacional y consistencia— y se profundiza en el diseño de soluciones de alta disponibilidad mediante instancias redundantes con deduplicación en Thanos o Cortex, identificando los puntos de fallo habituales y sus mitigaciones. El bloque incluye la configuración práctica de cada patrón y la comparación de sus implicaciones sobre el ciclo de vida de los datos.

Bloque 2 — Cardinalidad, rendimiento de la TSDB y optimización de rules Este bloque aborda el principal vector de degradación en entornos de producción: la explosión de cardinalidad. Se exploran técnicas para evaluar el conjunto de métricas existente, localizar labels problemáticos y proponer refactors con impacto medible. A continuación se revisan los parámetros internos de la TSDB —retención, compactación y chunk encoding— para anticipar degradaciones ante el crecimiento proyectado de series temporales. La segunda parte del bloque se centra en la optimización de recording rules, con ejercicios de medición de latencia de evaluación y validación de mejoras en dashboards de alto tráfico.

Bloque 3 — Alertmanager avanzado y automatización CI/CD Se parte de configuraciones reales de Alertmanager multiequipo para practicar la auditoría crítica: detección de rutas mal construidas, alertas duplicadas y ausencia de reglas de inhibición en escenarios de fallo en cascada. Tras consolidar el diagnóstico manual, el bloque introduce la automatización del ciclo de vida de reglas y dashboards: uso de Prometheus Operator con CRDs de Kubernetes, generación de dashboards mediante Jsonnet/Grafonnet y su integración en un pipeline CI/CD con validación y despliegue automatizados.

Bloque 4 — Diseño de SLOs/SLIs y error budgets El bloque final traslada los conocimientos anteriores al marco SRE de Google. Se define la relación entre métricas Prometheus, SLIs y SLOs, y se construye un modelo completo de error budget. El núcleo práctico es la implementación de alertas de multiwindow burn rate, evaluando las ventanas cortas y largas de consumo de presupuesto para conseguir alertas que equilibren sensibilidad y especificidad. Se concluye con la integración del modelo en el pipeline de automatización trabajado en el bloque anterior.

Equipo con al menos 8 GB de RAM y 4 núcleos (las prácticas levantan stacks Docker Compose con Prometheus, Thanos/Cortex y Alertmanager).
Docker Desktop (v24+) o Docker Engine equivalente instalado y en ejecución.
kubectl (v1.28+) y acceso a un clúster Kubernetes local (kind o minikube) para los ejercicios de Prometheus Operator.
Helm (v3.12+) y Jsonnet/Jsonnet Bundler (jb) instalados.
Git y acceso a una cuenta en GitHub o GitLab para los ejercicios de pipeline CI/CD.
Navegador moderno para acceder a las UIs de Prometheus, Alertmanager, Thanos y Grafana expuestas en localhost.

Configuración y operación de Prometheus a nivel intermedio (scrape configs, service discovery, PromQL, alerting básico con Alertmanager y dashboards en Grafana), cubiertos en PRO202.
Familiaridad con entornos Kubernetes y conceptos básicos de CI/CD.
Comprensión general de las métricas de tipo counter, gauge, histogram y summary.

Prometheus — Avanzado

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria