Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales con experiencia previa en Databricks que desean consolidar y ampliar sus capacidades para diseñar soluciones de datos más robustas y eficientes en entornos de producción. A lo largo de las 8 horas lectivas, los participantes profundizarán en la gestión avanzada de clústeres, el diseño y mantenimiento de tablas Delta optimizadas, la integración segura de fuentes externas y la orquestación de pipelines de notebooks encadenados con manejo de errores. También trabajarán la idempotencia en procesos de ingesta, la gobernanza de datos mediante Unity Catalog y la evaluación crítica de las capacidades de AutoML. Al finalizar el curso, el participante será capaz de construir y operar pipelines de datos intermedios en Databricks, tomando decisiones fundamentadas sobre arquitectura, coste, seguridad y calidad del dato.
Bloque 1 — Gestión avanzada de clústeres
Este bloque abre el curso con un análisis comparativo de los tipos de clúster disponibles en Databricks: los all-purpose clusters, orientados al trabajo interactivo y colaborativo, y los job clusters, creados y destruidos de forma efímera para ejecutar cargas automatizadas. Los participantes examinarán cómo cada modalidad impacta en el coste operativo y en la disponibilidad del entorno, y aprenderán a seleccionar la opción más adecuada en función del tipo de tarea, la frecuencia de ejecución y las restricciones presupuestarias del proyecto.
Bloque 2 — Delta Lake: diseño, optimización y mantenimiento
El segundo bloque aborda el diseño de tablas Delta con criterios de particionado alineados al patrón de acceso real de los datos. Se trabajará la configuración y ejecución de las operaciones OPTIMIZE —para la compactación de ficheros pequeños y la generación de estadísticas Z-Order— y VACUUM —para la eliminación de versiones antiguas con un valor de retención explícito—, analizando el efecto de cada operación sobre el rendimiento y el almacenamiento. Seguidamente, el bloque aborda la diferencia conceptual y práctica entre Managed tables y External tables en Unity Catalog, con especial énfasis en el comportamiento ante un DROP TABLE y en la implicación de cada tipo sobre la persistencia y el ciclo de vida del dato, de modo que el participante pueda argumentar la elección correcta para cada caso de uso.
Bloque 3 — Integración segura de fuentes externas
Este bloque se centra en la conexión de Databricks con fuentes de datos externas —Azure Data Lake Storage, Amazon S3 y bases de datos relacionales vía JDBC—, haciendo hincapié en la gestión segura de credenciales a través de Databricks Secret Scope. Los participantes aprenderán a almacenar y recuperar secretos desde un notebook sin exponer credenciales en claro, cumpliendo así con los requisitos habituales de seguridad y auditoría de los entornos corporativos.
Bloque 4 — Orquestación de notebooks y pipelines idempotentes
El cuarto bloque combina dos capacidades procedimentales complementarias. Por un lado, los participantes diseñarán flujos de notebooks encadenados mediante dbutils.notebook.run, configurando el paso de parámetros entre notebooks y estableciendo mecanismos explícitos de captura y propagación de errores que interrumpan la cadena ante cualquier fallo. Por otro lado, aprenderán a convertir pipelines de ingesta existentes en procesos idempotentes aplicando escritura en modo MERGE (upsert) sobre tablas Delta, garantizando que las re-ejecuciones no generen duplicados y que el estado final de los datos sea siempre consistente.
Bloque 5 — Depuración de jobs y evaluación de AutoML
El bloque final integra dos competencias de diagnóstico y valoración crítica. La primera parte se dedica a la depuración de jobs fallidos en la interfaz de Databricks: los participantes analizarán los logs de driver y executor para localizar la causa raíz de un fallo real y formularán —y aplicarán— la corrección pertinente. La segunda parte introduce Databricks AutoML como herramienta de automatización del proceso de modelado: los participantes ejecutarán un experimento de AutoML y compararán sus resultados, usando la misma métrica de evaluación, con los de un modelo baseline construido manualmente, identificando al menos dos decisiones de preprocesamiento que AutoML tomó de forma automática y valorando de forma razonada su idoneidad para el problema planteado.
Para aprovechar al máximo este curso, los participantes deben haber completado DAT201 — Databricks Iniciación o demostrar un nivel equivalente de conocimiento práctico. Se asume que el estudiante es capaz de crear y ejecutar notebooks en Databricks, trabajar con DataFrames de Spark, leer y escribir datos en formato Delta Lake y comprender el modelo básico de clústeres. Son también recomendables nociones fundamentales de SQL y experiencia básica con Python o Scala en un entorno de análisis de datos.