Boost Academy
FormaciónEvaluacionesPerfil
Volver
  • En directo

Data Warehouse — Intermedio

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Data Warehouse

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Este curso está dirigido a profesionales con conocimientos previos de Data Warehouse que deseen consolidar y profundizar su capacidad de diseño y operación de soluciones analíticas. A lo largo de las 8 horas de formación, los participantes trabajarán sobre escenarios reales de modelado dimensional, integración de fuentes heterogéneas y gestión de pipelines ETL/ELT, abordando decisiones de arquitectura que van desde la elección del esquema de hechos y dimensiones hasta la estrategia de carga más adecuada según el volumen y la frecuencia de los datos. Al finalizar, el alumno será capaz de diseñar y mantener un modelo dimensional robusto, depurar errores en pipelines de carga y adaptar la arquitectura existente ante nuevos requisitos de negocio sin comprometer la integridad analítica.

  1. Distinguir las responsabilidades de cada capa de un Data Warehouse (staging, core/integration y data mart) y argumentar los criterios de transformación que corresponden a cada una en un caso práctico.
  2. Contrastar las estrategias de carga full load e incremental, evaluando cuál resulta más adecuada según el volumen de datos, la frecuencia de actualización y la ventana de carga disponible.
  3. Razonar el uso de surrogate keys frente a claves naturales en dimensiones multi-fuente, identificando los escenarios en que cada enfoque aporta mayor consistencia e integridad.
  4. Diseñar un esquema dimensional en estrella o copo de nieve para un dominio de negocio concreto, justificando la elección del esquema a partir de los patrones de consulta esperados.
  5. Integrar fuentes de datos heterogéneas en una capa de staging, aplicando reglas de limpieza y estandarización documentadas para garantizar la calidad del dato entrante.
  6. Diseñar e implementar una Slowly Changing Dimension de tipo 2 que preserve el historial de cambios, asegurando la integridad de los registros activos e históricos.
  7. Depurar un pipeline ETL/ELT con errores reales (nulos, claves huérfanas o tipos incongruentes), localizando la causa raíz y aplicando la corrección en la capa correspondiente del modelo.
  8. Adaptar un modelo dimensional ante un nuevo requisito de negocio —incorporación de una dimensión adicional o cambio de granularidad— sin invalidar las consultas analíticas preexistentes.

Bloque 1 — Arquitectura de capas y principios de modelado (aprox. 2 h) El curso arranca estableciendo la arquitectura de referencia de un Data Warehouse moderno, donde cada capa —staging, core/integration y data mart— tiene responsabilidades y criterios de transformación propios. Sobre esta base se analiza la elección entre el esquema en estrella y el copo de nieve, relacionando cada opción con los patrones de consulta esperados en el dominio de negocio. Se introduce también el debate entre surrogate keys y claves naturales, examinando cómo la procedencia multi-fuente condiciona esa decisión de diseño.

Bloque 2 — Integración de fuentes y estrategias de carga (aprox. 2 h) Este bloque se centra en la capa de staging como punto de entrada de datos heterogéneos. Se trabaja la integración de al menos dos fuentes con formatos o motores distintos, definiendo reglas de limpieza y estandarización documentadas que garanticen la calidad del dato antes de que avance en el pipeline. A continuación se comparan las estrategias full load e incremental, evaluando para cada caso el volumen de datos, la frecuencia de actualización y la ventana de carga disponible, de modo que el participante pueda seleccionar y argumentar la opción más adecuada.

Bloque 3 — Dimensiones históricas y gestión del cambio (aprox. 2 h) El tercer bloque aborda la gestión del cambio en las dimensiones. Se diseña e implementa una Slowly Changing Dimension de tipo 2, prestando especial atención a los mecanismos que preservan el historial sin comprometer la integridad de los registros activos. Se discuten los patrones de detección de cambios, la gestión de fechas de vigencia y las implicaciones sobre las consultas analíticas que dependen de esa dimensión.

Bloque 4 — Depuración de pipelines y evolución del modelo (aprox. 2 h) El curso cierra con un enfoque integrador orientado a la operación y la mantenibilidad. Se trabaja sobre pipelines ETL/ELT que contienen errores introducidos intencionadamente —valores nulos, claves huérfanas, tipos incongruentes—, practicando la identificación de la causa raíz y la aplicación de la corrección en la capa correcta del modelo. Finalmente, se aborda la evolución del esquema dimensional ante nuevos requisitos de negocio: cómo incorporar una dimensión adicional o modificar la granularidad de una tabla de hechos sin romper las consultas analíticas ya existentes.

  • Ordenador con acceso a internet y permisos para instalar software.
  • Motor de base de datos relacional disponible localmente o en la nube (PostgreSQL 14+ recomendado; se aceptan alternativas como DuckDB o SQLite para los ejercicios de modelado).
  • Herramienta de diseño de diagramas (draw.io, dbdiagram.io o similar) para los ejercicios de esquema dimensional.
  • Cliente SQL gráfico o de línea de comandos (DBeaver, DataGrip, psql o equivalente).
  • Entorno de scripting Python 3.9+ con las librerías pandas y sqlalchemy instaladas, necesario para los ejercicios de integración de fuentes y depuración de pipelines.
  • Acceso a los datasets de práctica facilitados por el instructor antes del inicio del curso.

Para aprovechar este curso el participante debe haber completado el nivel de iniciación en Data Warehouse (DAW201) o acreditar un dominio equivalente. Se asume familiaridad con los conceptos de tabla de hechos y dimensión, conocimiento básico de SQL para transformaciones, y experiencia mínima en la ejecución de un proceso ETL sencillo. Sin estos fundamentos, algunos ejercicios prácticos de los bloques 2, 3 y 4 pueden resultar de difícil seguimiento.