Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Curso dirigido a profesionales de QA, SRE o desarrollo que ya dominan los fundamentos de Prometheus y necesitan operar con soltura en entornos reales de monitorización. A lo largo de ocho horas, el participante aprenderá a incorporar exporters estándar y métricas de instrumentación propia en un stack existente, construirá dashboards en Grafana a partir de consultas PromQL originales, diseñará conjuntos de reglas de alerta justificados y dominará las técnicas de depuración necesarias para resolver targets caídos, métricas ausentes y alertas que no se disparan correctamente; saliendo del curso con un pipeline de observabilidad funcional que incluye indicadores SLI de disponibilidad y latencia listos para ser aplicados sobre un servicio bajo prueba.
rate, increase y avg_over_time para obtener indicadores SLI de disponibilidad y latencia.rules.yml con al menos tres escenarios de fallo, justificando umbrales y el campo for, y depurar reglas de alerta que no se disparan o generan falsos positivos utilizando la pestaña "Alerts" y promtool check rules.DOWN o métricas ausentes, identificando y corrigiendo la causa raíz mediante logs y la UI de Prometheus, y aplicar el conjunto de habilidades adquiridas en un ejercicio integrador de observabilidad end-to-end.Bloque 1 — Tipos de métricas y elección informada (aprox. 1,5 h) Se revisan en profundidad los cuatro tipos de métricas de Prometheus haciendo foco en el uso práctico de counters, gauges e histogramas en la instrumentación de aplicaciones propias. Se analiza en detalle la diferencia estructural entre histogramas y summaries: cómo cada uno almacena y calcula percentiles, cuándo la naturaleza no agregable del summary lo hace inviable en arquitecturas multi-instancia y cómo elegir buckets de histograma representativos para el servicio que se va a medir. Los participantes aplican estos criterios instrumentando un endpoint de ejemplo con las tres familias de métricas y justificando su elección ante el grupo.
Bloque 2 — Integración de exporters y métricas de instrumentación propia (aprox. 2 h) Se incorporan al stack existente los exporters más habituales en entornos de QA y producción —Node Exporter para métricas de sistema, Blackbox Exporter para sondas HTTP/TCP y cAdvisor para contenedores— configurando los jobs de scraping correspondientes y validando en el TSDB que las series aparecen correctamente. A continuación se instrumenta una aplicación propia con las bibliotecas cliente de Prometheus, exponiendo métricas de negocio y calidad, y se verifica su recolección. El bloque cierra con ejercicios de scraping multi-target y uso de relabeling básico para mantener un modelo de etiquetas limpio.
Bloque 3 — PromQL intermedio y construcción de SLIs en Grafana (aprox. 2 h)
Se profundiza en las funciones de rango temporal más utilizadas (rate, increase, avg_over_time) y en operadores de agregación para construir indicadores SLI de disponibilidad (ratio de peticiones exitosas) y latencia (percentil sobre histograma). Con esas consultas como base, se crea desde cero un dashboard en Grafana —sin importar plantillas externas— que incluye paneles de series temporales, stat y heatmap, prestando atención a la legibilidad de ejes, leyendas y umbrales visuales.
Bloque 4 — Reglas de alerta: diseño, validación y depuración (aprox. 1,5 h)
Se diseña un fichero rules.yml que cubre al menos tres escenarios de fallo reales (servicio caído, latencia elevada, tasa de errores anómala), discutiendo para cada uno el umbral numérico elegido y el campo for que evita falsos positivos por picos transitorios. Se valida el fichero con promtool check rules y se simula el disparo de alertas en un entorno controlado. La segunda parte del bloque está dedicada a la depuración: se analizan casos de reglas silenciosas o con falsos positivos positivos, utilizando la pestaña "Alerts" de la UI para inspeccionar el estado pending/firing y promtool para detectar errores de sintaxis o lógica.
Bloque 5 — Depuración del pipeline de scraping y ejercicio integrador (aprox. 1 h)
Se reproducen escenarios habituales de fallo en producción: targets en estado DOWN por problemas de red, TLS o autenticación, y métricas que desaparecen del TSDB sin causa aparente. Los participantes aprenden a usar los logs de Prometheus, la página /targets y las métricas internas (up, scrape_duration_seconds) para localizar y corregir la causa raíz de forma sistemática. El bloque cierra con un ejercicio integrador en el que cada participante levanta un stack completo (exporter + instrumentación propia + reglas + dashboard + alerta funcional), poniendo en práctica todos los conocimientos del curso.
curl, promtool (incluido en el binario de Prometheus) y permisos para exponer puertos locales.prometheus.yml, jobs de scrape, targets estáticos).rate y sum.