Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Dirigido a profesionales con experiencia consolidada en Databricks que necesitan dominar los patrones de diseño y las decisiones de ingeniería propias de entornos productivos a escala. A lo largo de las ocho horas del curso, el participante abordará la arquitectura lakehouse de tres capas sobre Delta Lake, las técnicas de optimización de jobs Spark ante situaciones de data skew, la automatización de pipelines end-to-end con Databricks Workflows y Delta Live Tables, y la gobernanza centralizada mediante Unity Catalog en escenarios multientorno. Se trabajará también la selección razonada de estrategias de clúster, el mantenimiento proactivo de tablas Delta de alta frecuencia de escritura, la operación de streaming estructurado bajo presión de rendimiento y la automatización completa del ciclo de vida de modelos ML con MLflow. Al finalizar, el participante será capaz de diseñar, operar y justificar arquitecturas Databricks de nivel productivo, tomando decisiones fundadas en métricas y criterios de coste, rendimiento y gobernanza.
Bloque 1 — Arquitectura lakehouse y gestión de Delta Lake Se estudia el patrón de tres capas bronze / silver / gold sobre Delta Lake: criterios de particionado y Z-ordering en función de los patrones de consulta esperados, políticas de retención por capa y gestión proactiva del problema de archivos pequeños mediante OPTIMIZE, VACUUM y Auto Optimize. Se establecen los criterios de activación y la planificación temporal de las operaciones de mantenimiento para tablas de alta frecuencia de escritura.
Bloque 2 — Optimización de jobs Spark Se analiza la anatomía del Spark UI para localizar síntomas de data skew y comprender su impacto en el rendimiento del clúster. Se aplican y comparan al menos dos técnicas de mitigación —salting, repartición selectiva e AQE hints— mediante una comparativa de métricas antes y después de la intervención, consolidando una metodología reproducible de diagnóstico y corrección.
Bloque 3 — Automatización de pipelines y estrategias de clúster Se construye un pipeline end-to-end con Databricks Workflows y Delta Live Tables, incorporando dependencias entre tareas, políticas de reintento y expectations de calidad de datos. En paralelo se evalúan las tres estrategias de clúster disponibles (interactive cluster, job cluster, SQL Warehouse) en función de un caso de uso concreto, argumentando el trade-off coste/rendimiento/gobernanza y configurando el autoscaling óptimo.
Bloque 4 — Gobernanza con Unity Catalog Se diseña la jerarquía catalog → schema → table de Unity Catalog en un entorno multientorno (dev/staging/prod), definiendo políticas de acceso por rol y habilitando la auditoría de accesos. Se examinan los patrones de segregación de entornos y los mecanismos de control que garantizan la trazabilidad de operaciones en producción.
Bloque 5 — MLOps y streaming estructurado Se automatiza el ciclo de vida completo de un modelo ML en MLflow —entrenamiento, evaluación, registro con versiones y aliases, promoción a producción y rollback— integrándolo en un Databricks Workflow con un gate de aprobación basado en métricas. Se cierra el bloque con el análisis del rendimiento de pipelines de streaming estructurado a través de las métricas de la Structured Streaming UI (input rate, processing rate, batch duration), identificando cuellos de botella y proponiendo ajustes justificados.