Boost Academy

Curso dirigido a profesionales de QA, SRE o desarrollo que ya dominan los fundamentos de Prometheus y necesitan operar con soltura en entornos reales de monitorización. A lo largo de ocho horas, el participante aprenderá a incorporar exporters estándar y métricas de instrumentación propia en un stack existente, construirá dashboards en Grafana a partir de consultas PromQL originales, diseñará conjuntos de reglas de alerta justificados y dominará las técnicas de depuración necesarias para resolver targets caídos, métricas ausentes y alertas que no se disparan correctamente; saliendo del curso con un pipeline de observabilidad funcional que incluye indicadores SLI de disponibilidad y latencia listos para ser aplicados sobre un servicio bajo prueba.

Reconocer las diferencias conceptuales entre histogramas y summaries, y seleccionar el tipo de métrica adecuado para medir latencia en función de los requisitos de agregación y percentiles del servicio.
Integrar exporters estándar (Node Exporter, Blackbox, cAdvisor) y métricas de instrumentación propia —counter, gauge e histograma— en un stack Prometheus existente, verificando su correcta ingesta en el TSDB.
Construir un dashboard en Grafana con paneles basados en consultas PromQL propias y adaptar funciones como rate, increase y avg_over_time para obtener indicadores SLI de disponibilidad y latencia.
Diseñar un fichero rules.yml con al menos tres escenarios de fallo, justificando umbrales y el campo for, y depurar reglas de alerta que no se disparan o generan falsos positivos utilizando la pestaña "Alerts" y promtool check rules.
Depurar un pipeline de scraping con targets en estado DOWN o métricas ausentes, identificando y corrigiendo la causa raíz mediante logs y la UI de Prometheus, y aplicar el conjunto de habilidades adquiridas en un ejercicio integrador de observabilidad end-to-end.

Bloque 1 — Tipos de métricas y elección informada (aprox. 1,5 h) Se revisan en profundidad los cuatro tipos de métricas de Prometheus haciendo foco en el uso práctico de counters, gauges e histogramas en la instrumentación de aplicaciones propias. Se analiza en detalle la diferencia estructural entre histogramas y summaries: cómo cada uno almacena y calcula percentiles, cuándo la naturaleza no agregable del summary lo hace inviable en arquitecturas multi-instancia y cómo elegir buckets de histograma representativos para el servicio que se va a medir. Los participantes aplican estos criterios instrumentando un endpoint de ejemplo con las tres familias de métricas y justificando su elección ante el grupo.

Bloque 2 — Integración de exporters y métricas de instrumentación propia (aprox. 2 h) Se incorporan al stack existente los exporters más habituales en entornos de QA y producción —Node Exporter para métricas de sistema, Blackbox Exporter para sondas HTTP/TCP y cAdvisor para contenedores— configurando los jobs de scraping correspondientes y validando en el TSDB que las series aparecen correctamente. A continuación se instrumenta una aplicación propia con las bibliotecas cliente de Prometheus, exponiendo métricas de negocio y calidad, y se verifica su recolección. El bloque cierra con ejercicios de scraping multi-target y uso de relabeling básico para mantener un modelo de etiquetas limpio.

Bloque 3 — PromQL intermedio y construcción de SLIs en Grafana (aprox. 2 h) Se profundiza en las funciones de rango temporal más utilizadas (rate, increase, avg_over_time) y en operadores de agregación para construir indicadores SLI de disponibilidad (ratio de peticiones exitosas) y latencia (percentil sobre histograma). Con esas consultas como base, se crea desde cero un dashboard en Grafana —sin importar plantillas externas— que incluye paneles de series temporales, stat y heatmap, prestando atención a la legibilidad de ejes, leyendas y umbrales visuales.

Bloque 4 — Reglas de alerta: diseño, validación y depuración (aprox. 1,5 h) Se diseña un fichero rules.yml que cubre al menos tres escenarios de fallo reales (servicio caído, latencia elevada, tasa de errores anómala), discutiendo para cada uno el umbral numérico elegido y el campo for que evita falsos positivos por picos transitorios. Se valida el fichero con promtool check rules y se simula el disparo de alertas en un entorno controlado. La segunda parte del bloque está dedicada a la depuración: se analizan casos de reglas silenciosas o con falsos positivos positivos, utilizando la pestaña "Alerts" de la UI para inspeccionar el estado pending/firing y promtool para detectar errores de sintaxis o lógica.

Bloque 5 — Depuración del pipeline de scraping y ejercicio integrador (aprox. 1 h) Se reproducen escenarios habituales de fallo en producción: targets en estado DOWN por problemas de red, TLS o autenticación, y métricas que desaparecen del TSDB sin causa aparente. Los participantes aprenden a usar los logs de Prometheus, la página /targets y las métricas internas (up, scrape_duration_seconds) para localizar y corregir la causa raíz de forma sistemática. El bloque cierra con un ejercicio integrador en el que cada participante levanta un stack completo (exporter + instrumentación propia + reglas + dashboard + alerta funcional), poniendo en práctica todos los conocimientos del curso.

Equipo con Docker Desktop (o Docker Engine + Compose) instalado y en ejecución.
Acceso a internet para descargar imágenes oficiales de Prometheus, Grafana, Node Exporter, Blackbox Exporter y cAdvisor.
Editor de código con resaltado YAML (VS Code recomendado).
Terminal con acceso a curl, promtool (incluido en el binario de Prometheus) y permisos para exponer puertos locales.
Mínimo 4 GB de RAM disponibles para el stack de laboratorio.
Navegador moderno (Chrome o Firefox) para la UI de Prometheus y Grafana.

Instalación y configuración básica de Prometheus (fichero prometheus.yml, jobs de scrape, targets estáticos).
Conocimiento de los cuatro tipos de métricas (counter, gauge, histogram, summary) a nivel conceptual.
Escritura de consultas PromQL elementales: selectores de serie, filtros por etiqueta y funciones simples como rate y sum.
Familiaridad con contenedores Docker para levantar el stack de prácticas.
Nociones básicas de HTTP y capacidad de leer logs de aplicación en línea de comandos.

Prometheus — Intermedio

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria