Boost Academy

Este curso está dirigido a profesionales con conocimientos previos de Data Warehouse que deseen consolidar y profundizar su capacidad de diseño y operación de soluciones analíticas. A lo largo de las 8 horas de formación, los participantes trabajarán sobre escenarios reales de modelado dimensional, integración de fuentes heterogéneas y gestión de pipelines ETL/ELT, abordando decisiones de arquitectura que van desde la elección del esquema de hechos y dimensiones hasta la estrategia de carga más adecuada según el volumen y la frecuencia de los datos. Al finalizar, el alumno será capaz de diseñar y mantener un modelo dimensional robusto, depurar errores en pipelines de carga y adaptar la arquitectura existente ante nuevos requisitos de negocio sin comprometer la integridad analítica.

Distinguir las responsabilidades de cada capa de un Data Warehouse (staging, core/integration y data mart) y argumentar los criterios de transformación que corresponden a cada una en un caso práctico.
Contrastar las estrategias de carga full load e incremental, evaluando cuál resulta más adecuada según el volumen de datos, la frecuencia de actualización y la ventana de carga disponible.
Razonar el uso de surrogate keys frente a claves naturales en dimensiones multi-fuente, identificando los escenarios en que cada enfoque aporta mayor consistencia e integridad.
Diseñar un esquema dimensional en estrella o copo de nieve para un dominio de negocio concreto, justificando la elección del esquema a partir de los patrones de consulta esperados.
Integrar fuentes de datos heterogéneas en una capa de staging, aplicando reglas de limpieza y estandarización documentadas para garantizar la calidad del dato entrante.
Diseñar e implementar una Slowly Changing Dimension de tipo 2 que preserve el historial de cambios, asegurando la integridad de los registros activos e históricos.
Depurar un pipeline ETL/ELT con errores reales (nulos, claves huérfanas o tipos incongruentes), localizando la causa raíz y aplicando la corrección en la capa correspondiente del modelo.
Adaptar un modelo dimensional ante un nuevo requisito de negocio —incorporación de una dimensión adicional o cambio de granularidad— sin invalidar las consultas analíticas preexistentes.

Bloque 1 — Arquitectura de capas y principios de modelado (aprox. 2 h) El curso arranca estableciendo la arquitectura de referencia de un Data Warehouse moderno, donde cada capa —staging, core/integration y data mart— tiene responsabilidades y criterios de transformación propios. Sobre esta base se analiza la elección entre el esquema en estrella y el copo de nieve, relacionando cada opción con los patrones de consulta esperados en el dominio de negocio. Se introduce también el debate entre surrogate keys y claves naturales, examinando cómo la procedencia multi-fuente condiciona esa decisión de diseño.

Bloque 2 — Integración de fuentes y estrategias de carga (aprox. 2 h) Este bloque se centra en la capa de staging como punto de entrada de datos heterogéneos. Se trabaja la integración de al menos dos fuentes con formatos o motores distintos, definiendo reglas de limpieza y estandarización documentadas que garanticen la calidad del dato antes de que avance en el pipeline. A continuación se comparan las estrategias full load e incremental, evaluando para cada caso el volumen de datos, la frecuencia de actualización y la ventana de carga disponible, de modo que el participante pueda seleccionar y argumentar la opción más adecuada.

Bloque 3 — Dimensiones históricas y gestión del cambio (aprox. 2 h) El tercer bloque aborda la gestión del cambio en las dimensiones. Se diseña e implementa una Slowly Changing Dimension de tipo 2, prestando especial atención a los mecanismos que preservan el historial sin comprometer la integridad de los registros activos. Se discuten los patrones de detección de cambios, la gestión de fechas de vigencia y las implicaciones sobre las consultas analíticas que dependen de esa dimensión.

Bloque 4 — Depuración de pipelines y evolución del modelo (aprox. 2 h) El curso cierra con un enfoque integrador orientado a la operación y la mantenibilidad. Se trabaja sobre pipelines ETL/ELT que contienen errores introducidos intencionadamente —valores nulos, claves huérfanas, tipos incongruentes—, practicando la identificación de la causa raíz y la aplicación de la corrección en la capa correcta del modelo. Finalmente, se aborda la evolución del esquema dimensional ante nuevos requisitos de negocio: cómo incorporar una dimensión adicional o modificar la granularidad de una tabla de hechos sin romper las consultas analíticas ya existentes.

Ordenador con acceso a internet y permisos para instalar software.
Motor de base de datos relacional disponible localmente o en la nube (PostgreSQL 14+ recomendado; se aceptan alternativas como DuckDB o SQLite para los ejercicios de modelado).
Herramienta de diseño de diagramas (draw.io, dbdiagram.io o similar) para los ejercicios de esquema dimensional.
Cliente SQL gráfico o de línea de comandos (DBeaver, DataGrip, psql o equivalente).
Entorno de scripting Python 3.9+ con las librerías pandas y sqlalchemy instaladas, necesario para los ejercicios de integración de fuentes y depuración de pipelines.
Acceso a los datasets de práctica facilitados por el instructor antes del inicio del curso.

Para aprovechar este curso el participante debe haber completado el nivel de iniciación en Data Warehouse (DAW201) o acreditar un dominio equivalente. Se asume familiaridad con los conceptos de tabla de hechos y dimensión, conocimiento básico de SQL para transformaciones, y experiencia mínima en la ejecución de un proceso ETL sencillo. Sin estos fundamentos, algunos ejercicios prácticos de los bloques 2, 3 y 4 pueden resultar de difícil seguimiento.

Data Warehouse — Intermedio

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria