Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Curso dirigido a ingenieros de plataforma, SREs y profesionales de QA con experiencia previa en Prometheus que necesitan afrontar los retos de escala, fiabilidad y operación avanzada de entornos de monitorización distribuida. A lo largo de ocho horas los participantes comprenderán los patrones arquitectónicos de federación y remote write, la gestión de la cardinalidad y el rendimiento de la TSDB, y las estrategias de alta disponibilidad con Thanos o Cortex; además, aprenderán a optimizar recording rules, a auditar configuraciones complejas de Alertmanager y a automatizar el ciclo de vida de reglas y dashboards en pipelines CI/CD. El resultado concreto es que cada participante será capaz de diseñar, desplegar y mantener una solución de monitorización a escala de producción con SLOs/SLIs basados en error budgets, reduciendo de forma demostrable la latencia de evaluación y los fallos de enrutamiento de alertas.
Bloque 1 — Arquitecturas distribuidas y alta disponibilidad Se estudian los dos grandes patrones para escalar Prometheus más allá de una sola instancia: la federación jerárquica y el remote write hacia almacenes de largo plazo. Se analizan los criterios de elección —latencia de consulta, retención, coste operacional y consistencia— y se profundiza en el diseño de soluciones de alta disponibilidad mediante instancias redundantes con deduplicación en Thanos o Cortex, identificando los puntos de fallo habituales y sus mitigaciones. El bloque incluye la configuración práctica de cada patrón y la comparación de sus implicaciones sobre el ciclo de vida de los datos.
Bloque 2 — Cardinalidad, rendimiento de la TSDB y optimización de rules Este bloque aborda el principal vector de degradación en entornos de producción: la explosión de cardinalidad. Se exploran técnicas para evaluar el conjunto de métricas existente, localizar labels problemáticos y proponer refactors con impacto medible. A continuación se revisan los parámetros internos de la TSDB —retención, compactación y chunk encoding— para anticipar degradaciones ante el crecimiento proyectado de series temporales. La segunda parte del bloque se centra en la optimización de recording rules, con ejercicios de medición de latencia de evaluación y validación de mejoras en dashboards de alto tráfico.
Bloque 3 — Alertmanager avanzado y automatización CI/CD Se parte de configuraciones reales de Alertmanager multiequipo para practicar la auditoría crítica: detección de rutas mal construidas, alertas duplicadas y ausencia de reglas de inhibición en escenarios de fallo en cascada. Tras consolidar el diagnóstico manual, el bloque introduce la automatización del ciclo de vida de reglas y dashboards: uso de Prometheus Operator con CRDs de Kubernetes, generación de dashboards mediante Jsonnet/Grafonnet y su integración en un pipeline CI/CD con validación y despliegue automatizados.
Bloque 4 — Diseño de SLOs/SLIs y error budgets El bloque final traslada los conocimientos anteriores al marco SRE de Google. Se define la relación entre métricas Prometheus, SLIs y SLOs, y se construye un modelo completo de error budget. El núcleo práctico es la implementación de alertas de multiwindow burn rate, evaluando las ventanas cortas y largas de consumo de presupuesto para conseguir alertas que equilibren sensibilidad y especificidad. Se concluye con la integración del modelo en el pipeline de automatización trabajado en el bloque anterior.
jb) instalados.