Boost Academy
FormaciónEvaluacionesPerfil
Volver
  • En directo

Databricks — Avanzado

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • databricks

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Dirigido a profesionales con experiencia consolidada en Databricks que necesitan dominar los patrones de diseño y las decisiones de ingeniería propias de entornos productivos a escala. A lo largo de las ocho horas del curso, el participante abordará la arquitectura lakehouse de tres capas sobre Delta Lake, las técnicas de optimización de jobs Spark ante situaciones de data skew, la automatización de pipelines end-to-end con Databricks Workflows y Delta Live Tables, y la gobernanza centralizada mediante Unity Catalog en escenarios multientorno. Se trabajará también la selección razonada de estrategias de clúster, el mantenimiento proactivo de tablas Delta de alta frecuencia de escritura, la operación de streaming estructurado bajo presión de rendimiento y la automatización completa del ciclo de vida de modelos ML con MLflow. Al finalizar, el participante será capaz de diseñar, operar y justificar arquitecturas Databricks de nivel productivo, tomando decisiones fundadas en métricas y criterios de coste, rendimiento y gobernanza.

  1. Describir los principios de la arquitectura lakehouse en tres capas (bronze / silver / gold) y los factores que determinan las decisiones de particionado, Z-ordering y retención en cada capa.
  2. Explicar los fundamentos del data skew en Spark y las estrategias de gobernanza de datos disponibles en Unity Catalog, diferenciando sus ámbitos de aplicación.
  3. Optimizar un job Spark con data skew identificado en el Spark UI aplicando al menos dos técnicas (salting, repartición selectiva, AQE hints) y comparando métricas antes y después de la intervención.
  4. Automatizar un pipeline de ingesta y transformación end-to-end con Databricks Workflows o Delta Live Tables, incorporando manejo de dependencias, reintentos y expectations de calidad de datos.
  5. Automatizar el ciclo de vida completo de un modelo ML en MLflow —entrenamiento, registro con versiones y aliases, promoción y rollback— integrándolo en un Databricks Workflow con gate de aprobación basado en métricas.
  6. Diseñar una estrategia de gobernanza con Unity Catalog que defina la jerarquía catalog → schema → table, políticas de acceso por rol y auditoría en un entorno dev/staging/prod.
  7. Arquitecturar un lakehouse de tres capas sobre Delta Lake justificando las decisiones de diseño en función de los patrones de consulta esperados, e integrar una estrategia de mantenimiento proactivo (OPTIMIZE, VACUUM, Auto Optimize) para tablas de alta frecuencia de escritura.
  8. Evaluar críticamente estrategias de clúster y el rendimiento de un pipeline de streaming estructurado, argumentando trade-offs coste/rendimiento/gobernanza y proponiendo ajustes justificados a partir de métricas de Structured Streaming UI.

Bloque 1 — Arquitectura lakehouse y gestión de Delta Lake Se estudia el patrón de tres capas bronze / silver / gold sobre Delta Lake: criterios de particionado y Z-ordering en función de los patrones de consulta esperados, políticas de retención por capa y gestión proactiva del problema de archivos pequeños mediante OPTIMIZE, VACUUM y Auto Optimize. Se establecen los criterios de activación y la planificación temporal de las operaciones de mantenimiento para tablas de alta frecuencia de escritura.

Bloque 2 — Optimización de jobs Spark Se analiza la anatomía del Spark UI para localizar síntomas de data skew y comprender su impacto en el rendimiento del clúster. Se aplican y comparan al menos dos técnicas de mitigación —salting, repartición selectiva e AQE hints— mediante una comparativa de métricas antes y después de la intervención, consolidando una metodología reproducible de diagnóstico y corrección.

Bloque 3 — Automatización de pipelines y estrategias de clúster Se construye un pipeline end-to-end con Databricks Workflows y Delta Live Tables, incorporando dependencias entre tareas, políticas de reintento y expectations de calidad de datos. En paralelo se evalúan las tres estrategias de clúster disponibles (interactive cluster, job cluster, SQL Warehouse) en función de un caso de uso concreto, argumentando el trade-off coste/rendimiento/gobernanza y configurando el autoscaling óptimo.

Bloque 4 — Gobernanza con Unity Catalog Se diseña la jerarquía catalog → schema → table de Unity Catalog en un entorno multientorno (dev/staging/prod), definiendo políticas de acceso por rol y habilitando la auditoría de accesos. Se examinan los patrones de segregación de entornos y los mecanismos de control que garantizan la trazabilidad de operaciones en producción.

Bloque 5 — MLOps y streaming estructurado Se automatiza el ciclo de vida completo de un modelo ML en MLflow —entrenamiento, evaluación, registro con versiones y aliases, promoción a producción y rollback— integrándolo en un Databricks Workflow con un gate de aprobación basado en métricas. Se cierra el bloque con el análisis del rendimiento de pipelines de streaming estructurado a través de las métricas de la Structured Streaming UI (input rate, processing rate, batch duration), identificando cuellos de botella y proponiendo ajustes justificados.

  • Acceso a un workspace de Databricks en la nube (Azure, AWS o GCP) con permisos de creación de clústeres y workflows; se recomienda nivel de cuenta con Unity Catalog habilitado.
  • Runtime de Databricks 13.x LTS o superior con soporte para Delta Lake 2.x y MLflow 2.x integrado.
  • Permisos de administración de Unity Catalog (al menos en un metastore de entrenamiento) para los ejercicios de gobernanza.
  • Cuenta de almacenamiento en la nube asociada al workspace (Azure Data Lake Storage Gen2, Amazon S3 o Google Cloud Storage) con contenedores/buckets de práctica disponibles.
  • Navegador web moderno (Chrome 120+ o Firefox 120+) y conexión a internet estable; no se requiere instalación local adicional.
  • Manejo fluido de PySpark y Spark SQL para transformaciones de datos a escala (nivel intermedio acreditado o equivalente al curso DAT202).
  • Conocimiento funcional de Delta Lake: lectura, escritura, operaciones MERGE y time travel.
  • Experiencia en la creación y programación de trabajos (jobs) en Databricks y uso básico del Spark UI.
  • Familiaridad con conceptos de MLflow: tracking de experimentos y registro de modelos.
  • Comprensión básica de conceptos de streaming (fuentes, sinks, triggers) en Structured Streaming.