Boost Academy

Dirigido a profesionales con experiencia consolidada en Data Warehouse que buscan dominar las decisiones arquitectónicas y operativas de sistemas analíticos en producción, este curso sitúa al participante ante escenarios reales de negocio en los que tendrá que elegir, justificar y construir. A lo largo de 8 horas, se abordan las grandes familias arquitectónicas —Kimball, Inmon, Data Vault y Lakehouse— con criterio comparativo, se profundiza en el diseño dimensional avanzado con dimensiones de cambio lento, y se trabajan las palancas de rendimiento y coste en plataformas cloud como BigQuery, Snowflake y Redshift. El participante terminará el curso habiendo diseñado un modelo dimensional completo para un caso de uso analítico, automatizado un pipeline ELT idempotente con controles de calidad y linaje, y elaborado una propuesta de gobernanza del dato con ownership por dominios, control de accesos y políticas de retención.

Comparar las principales arquitecturas de referencia de Data Warehouse —Kimball, Inmon, Data Vault y Lakehouse— identificando los escenarios técnicos y de negocio en los que cada una resulta más adecuada.
Diseñar un modelo dimensional completo, con tablas de hechos, dimensiones y gestión de cambios históricos, justificando cada decisión de diseño frente a las alternativas consideradas.
Aplicar estrategias de particionamiento, clustering y materialización para optimizar consultas analíticas sobre tablas de gran volumen, midiendo el impacto de cada intervención.
Construir un pipeline ELT idempotente con manejo de errores, reintentos y alertas, garantizando la ausencia de duplicados o pérdida de datos ante cualquier reejecución.
Establecer controles de validación y un modelo de linaje trazable que anticipe y mitigue los principales riesgos de calidad del dato en un pipeline de ingesta.
Evaluar al menos dos plataformas cloud de Data Warehouse para un workload analítico concreto, argumentando la elección con criterios de rendimiento, coste por patrón de consulta y escalabilidad.
Formular una estrategia de gobernanza del dato para un DWH productivo que contemple control de accesos por capa, políticas de retención y un modelo de ownership por dominios, integrando los aspectos de optimización de coste operativo con impacto económico cuantificado.

Bloque 1 — Arquitecturas de referencia y toma de decisiones de diseño. Se analizan en profundidad las cuatro grandes arquitecturas de Data Warehouse —Kimball, Inmon, Data Vault y Lakehouse— estudiando sus principios fundacionales, sus fortalezas y sus limitaciones. A partir de casos de uso reales se practican los criterios de selección arquitectónica y se construye un modelo dimensional completo que incluye tablas de hechos, dimensiones conformadas y dimensiones de cambio lento (SCDs tipo 1, 2 y 3), con especial énfasis en la justificación explícita de cada decisión de diseño frente a las alternativas descartadas.

Bloque 2 — Optimización de rendimiento en entornos de gran volumen. Se abordan las estrategias disponibles en las principales plataformas cloud para acelerar consultas analíticas sobre tablas de hechos de gran escala: particionamiento por fecha y por clave de negocio, clustering sobre columnas de alta cardinalidad y materialización de vistas y agregados intermedios. A través de ejercicios prácticos de before/after se establece una metodología de diagnóstico y medición del impacto que permite tomar decisiones de optimización basadas en evidencia.

Bloque 3 — Pipelines ELT robustos y calidad del dato. Se diseña e implementa un pipeline ELT idempotente con manejo explícito de errores, política de reintentos y sistema de alertas, verificando que cualquier reejecución parcial o completa preserva la integridad de los datos. Sobre ese mismo pipeline se trabaja la anticipación de riesgos de calidad: identificación de puntos de fallo en la ingesta, definición de controles de validación en cada capa y construcción de un modelo de linaje que permita trazar cualquier dato hasta su fuente original.

Bloque 4 — Plataformas cloud, gobernanza y coste operativo. Se evalúan comparativamente las principales plataformas cloud de Data Warehouse —BigQuery, Snowflake y Redshift— aplicando un marco de análisis basado en rendimiento, modelo de precios y patrones de escalabilidad para un workload analítico específico. El bloque culmina con el diseño de una estrategia integral de gobernanza del dato que incluye control de accesos por capa, políticas de retención, modelo de ownership por dominios y un plan de optimización del coste operativo con impacto económico cuantificado.

Acceso a una plataforma cloud de Data Warehouse con permisos para crear datasets, tablas y jobs (BigQuery, Snowflake o Redshift; se proporcionará entorno sandbox si el participante no dispone de cuenta propia).
Cliente SQL o IDE compatible con la plataforma elegida (ej. DBeaver, DataGrip o la consola web nativa).
Entorno de desarrollo con Python 3.10+ y capacidad para instalar paquetes vía pip (para los ejercicios de pipeline ELT).
Acceso a Internet estable para consultar documentación oficial y conectar con los entornos cloud de práctica.
Navegador web moderno (Chrome o Firefox en versión actualizada) para las herramientas de visualización de linaje y métricas de coste.

Modelado dimensional: tablas de hechos y dimensiones, esquemas en estrella y copo de nieve.
Fundamentos de procesos ETL/ELT y herramientas de orquestación básicas.
Experiencia práctica con al menos una plataforma cloud de Data Warehouse (BigQuery, Snowflake o Redshift).
Conocimiento de SQL analítico: funciones de ventana, CTEs y consultas de agregación sobre conjuntos de datos medianos.
Nociones básicas de control de versiones y trabajo con repositorios Git.

Este curso requiere el prerrequisito DAW202. No se recomienda abordarlo sin haber completado previamente ese nivel intermedio.

Data Warehouse — Avanzado

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria