Boost Academy

Dirigido a ingenieros de calidad, SREs y profesionales DevOps con experiencia previa en Datadog que necesitan llevar su práctica de observabilidad al siguiente nivel en entornos de microservicios complejos. A lo largo de las 8 horas del curso, el participante profundizará en la arquitectura de estrategias de observabilidad full-stack —integrando métricas, logs, trazas APM y RUM—, aprenderá a gobernar el coste de la ingesta de datos mediante pipelines de procesamiento y políticas de retención, y automatizará la gestión de toda la configuración de Datadog a través de Terraform y la API, incorporándola en flujos CI/CD. El resultado es un profesional capaz de diseñar e implementar un sistema de observabilidad sostenible, auditado y orientado a negocio, con SLOs y error budgets accionables, alertas de alta señal y detección proactiva de degradaciones en producción.

Describir los pilares de la observabilidad full-stack —métricas, logs, trazas y RUM— y explicar cómo se interrelacionan para proporcionar contexto completo en un entorno de microservicios interdependientes.
Explicar los conceptos de SLO, error budget y burn rate, así como los trade-offs de coste y cobertura entre métricas custom, métricas de integración y logs estructurados.
Configurar pipelines de procesamiento de logs con filtros de exclusión y políticas de retención diferenciada por nivel de criticidad, reduciendo el volumen de ingesta sin pérdida de visibilidad relevante.
Diseñar SLOs y error budgets alineados con acuerdos de servicio reales e implementar burn rate alerts con ventanas deslizantes múltiples en un entorno de laboratorio.
Automatizar la provisión de dashboards y monitores mediante Terraform o la API de Datadog e integrar dicha configuración en un pipeline CI/CD reproducible y versionado.
Construir monitores de anomalías y forecasting sobre series temporales de infraestructura con histórico suficiente para anticipar patrones de degradación antes de que impacten en el usuario.
Auditar una arquitectura de alertas existente, identificar falsos positivos, alertas huérfanas y brechas de cobertura aplicando métricas de signal-to-noise, y proponer un plan de remediación priorizado.
Integrar la API de Datadog en un pipeline de testing para consultar métricas APM tras cada despliegue y automatizar la detección de regresiones de rendimiento como gate de calidad.

Bloque 1 — Observabilidad full-stack en microservicios El curso arranca estableciendo el marco conceptual de la observabilidad avanzada: cómo métricas, logs, trazas distribuidas y Real User Monitoring se complementan para ofrecer una visión cohesionada de un sistema compuesto por múltiples servicios interdependientes. Se estudian los patrones de correlación entre señales y los criterios que guían la decisión entre métricas custom, métricas de integración y logs estructurados en función del caso de uso y el coste asociado.

Bloque 2 — Gestión del coste de ingesta de logs Se aborda la optimización económica y operativa de la capa de logs: diseño de pipelines de procesamiento, configuración de filtros de exclusión y definición de políticas de retención diferenciada según la criticidad de cada fuente. El participante trabaja con escenarios reales para reducir el volumen ingestado manteniendo la cobertura necesaria para auditoría y troubleshooting.

Bloque 3 — SLOs, error budgets y alertas de alta señal Este bloque profundiza en la fiabilidad orientada a negocio: definición de SLOs vinculados a acuerdos de servicio reales, cálculo y seguimiento de error budgets, e implementación de burn rate alerts con ventanas deslizantes cortas y largas. Sobre esa base, se analiza una arquitectura de alertas existente aplicando métricas de signal-to-noise para detectar falsos positivos, alertas huérfanas y huecos de cobertura, y se establece un proceso de mejora continua.

Bloque 4 — Automatización: IaC, CI/CD y detección de regresiones El bloque final consolida la visión de Datadog como código: provisión automatizada de dashboards y monitores mediante Terraform y la API REST, integración de esa configuración en un flujo CI/CD versionado y reproducible, y uso de la misma API para consultar métricas APM después de cada despliegue y convertir la detección de regresiones de rendimiento en un gate de calidad del pipeline. Se cierra con la construcción de monitores de anomalías y forecasting sobre métricas de infraestructura para anticipar degradaciones de forma proactiva.

Cuenta de Datadog con permisos de administrador (trial de 14 días válida; se recomienda organización de laboratorio dedicada).
Terraform ≥ 1.5 instalado localmente con el provider DataDog/datadog disponible.
Acceso a la API de Datadog: API Key y Application Key generadas antes del inicio del curso.
Entorno de contenedores local o en cloud: Docker Desktop o acceso a un clúster Kubernetes (minikube, kind o equivalente) con el Datadog Agent desplegado.
Aplicación de ejemplo multi-servicio con el APM Agent instrumentado (se facilita repositorio de referencia en los materiales del curso).
Pipeline CI/CD operativo con al menos un runner ejecutable (GitHub Actions, GitLab CI u otro) para las prácticas del Bloque 4.
Navegador moderno (Chrome o Firefox en versión estable) y conexión estable a Internet.

Manejo fluido de la interfaz de Datadog: dashboards, monitores y gestión básica de alertas (cubierto en DAT02).
Conocimiento operativo de APM: instrumentación de servicios, lectura de flame graphs y correlación de trazas con logs.
Experiencia práctica con infraestructura en contenedores o microservicios (Docker/Kubernetes a nivel funcional).
Familiaridad con conceptos de CI/CD y al menos una herramienta de pipeline (GitHub Actions, GitLab CI, Jenkins u equivalente).
Nociones básicas de Terraform o experiencia con alguna herramienta de Infrastructure as Code son recomendables para el Bloque 4.

Datadog — Avanzado

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria