Boost Academy

Este curso está dirigido a profesionales con experiencia previa en Databricks que desean consolidar y ampliar sus capacidades para diseñar soluciones de datos más robustas y eficientes en entornos de producción. A lo largo de las 8 horas lectivas, los participantes profundizarán en la gestión avanzada de clústeres, el diseño y mantenimiento de tablas Delta optimizadas, la integración segura de fuentes externas y la orquestación de pipelines de notebooks encadenados con manejo de errores. También trabajarán la idempotencia en procesos de ingesta, la gobernanza de datos mediante Unity Catalog y la evaluación crítica de las capacidades de AutoML. Al finalizar el curso, el participante será capaz de construir y operar pipelines de datos intermedios en Databricks, tomando decisiones fundamentadas sobre arquitectura, coste, seguridad y calidad del dato.

Comparar las características y el impacto en coste y disponibilidad de los distintos tipos de clúster disponibles en Databricks para seleccionar el más adecuado según la carga de trabajo.
Diseñar tablas Delta con estrategias de particionado óptimas y aplicar operaciones de mantenimiento con parámetros de retención explícitos ajustados al patrón de acceso.
Integrar fuentes de datos externas en un notebook Databricks gestionando las credenciales de forma segura mediante Secret Scope, sin exposición de información sensible en el código.
Adaptar pipelines de ingesta existentes para garantizar la idempotencia mediante operaciones de escritura tipo upsert sobre tablas Delta, eliminando el riesgo de duplicados ante re-ejecuciones.
Diseñar flujos de notebooks encadenados con paso de parámetros y manejo explícito de errores que interrumpa la ejecución ante cualquier fallo en la cadena.
Depurar jobs fallidos en Databricks analizando los logs de driver y executor en la interfaz de usuario para identificar la causa raíz y aplicar la corrección correspondiente.
Justificar la elección entre tabla gestionada y tabla externa en Unity Catalog argumentando el impacto sobre la persistencia de datos y la adecuación al caso de uso planteado.
Evaluar de forma crítica los resultados de Databricks AutoML comparándolos con un modelo baseline manual e identificando las decisiones de preprocesamiento automatizadas y su idoneidad.

Bloque 1 — Gestión avanzada de clústeres

Este bloque abre el curso con un análisis comparativo de los tipos de clúster disponibles en Databricks: los all-purpose clusters, orientados al trabajo interactivo y colaborativo, y los job clusters, creados y destruidos de forma efímera para ejecutar cargas automatizadas. Los participantes examinarán cómo cada modalidad impacta en el coste operativo y en la disponibilidad del entorno, y aprenderán a seleccionar la opción más adecuada en función del tipo de tarea, la frecuencia de ejecución y las restricciones presupuestarias del proyecto.

Bloque 2 — Delta Lake: diseño, optimización y mantenimiento

El segundo bloque aborda el diseño de tablas Delta con criterios de particionado alineados al patrón de acceso real de los datos. Se trabajará la configuración y ejecución de las operaciones OPTIMIZE —para la compactación de ficheros pequeños y la generación de estadísticas Z-Order— y VACUUM —para la eliminación de versiones antiguas con un valor de retención explícito—, analizando el efecto de cada operación sobre el rendimiento y el almacenamiento. Seguidamente, el bloque aborda la diferencia conceptual y práctica entre Managed tables y External tables en Unity Catalog, con especial énfasis en el comportamiento ante un DROP TABLE y en la implicación de cada tipo sobre la persistencia y el ciclo de vida del dato, de modo que el participante pueda argumentar la elección correcta para cada caso de uso.

Bloque 3 — Integración segura de fuentes externas

Este bloque se centra en la conexión de Databricks con fuentes de datos externas —Azure Data Lake Storage, Amazon S3 y bases de datos relacionales vía JDBC—, haciendo hincapié en la gestión segura de credenciales a través de Databricks Secret Scope. Los participantes aprenderán a almacenar y recuperar secretos desde un notebook sin exponer credenciales en claro, cumpliendo así con los requisitos habituales de seguridad y auditoría de los entornos corporativos.

Bloque 4 — Orquestación de notebooks y pipelines idempotentes

El cuarto bloque combina dos capacidades procedimentales complementarias. Por un lado, los participantes diseñarán flujos de notebooks encadenados mediante dbutils.notebook.run, configurando el paso de parámetros entre notebooks y estableciendo mecanismos explícitos de captura y propagación de errores que interrumpan la cadena ante cualquier fallo. Por otro lado, aprenderán a convertir pipelines de ingesta existentes en procesos idempotentes aplicando escritura en modo MERGE (upsert) sobre tablas Delta, garantizando que las re-ejecuciones no generen duplicados y que el estado final de los datos sea siempre consistente.

Bloque 5 — Depuración de jobs y evaluación de AutoML

El bloque final integra dos competencias de diagnóstico y valoración crítica. La primera parte se dedica a la depuración de jobs fallidos en la interfaz de Databricks: los participantes analizarán los logs de driver y executor para localizar la causa raíz de un fallo real y formularán —y aplicarán— la corrección pertinente. La segunda parte introduce Databricks AutoML como herramienta de automatización del proceso de modelado: los participantes ejecutarán un experimento de AutoML y compararán sus resultados, usando la misma métrica de evaluación, con los de un modelo baseline construido manualmente, identificando al menos dos decisiones de preprocesamiento que AutoML tomó de forma automática y valorando de forma razonada su idoneidad para el problema planteado.

Acceso a un workspace de Databricks (Community Edition, Azure Databricks, AWS o GCP) con permisos para crear clústeres y jobs.
Permisos para crear y administrar Secret Scopes en el workspace, o acceso a un entorno de laboratorio preconfigurado facilitado por el instructor.
Acceso a al menos una fuente de datos externa (Azure Data Lake Storage Gen2, bucket de S3 o base de datos JDBC) o a los conjuntos de datos de práctica proporcionados en los materiales del curso.
Unity Catalog habilitado en el workspace, o acceso a un entorno de demostración equivalente para los ejercicios del Bloque 2.
Navegador web moderno (Chrome, Edge o Firefox en versión reciente) con acceso estable a internet.
Databricks Runtime versión 13.x LTS o superior recomendada para garantizar la compatibilidad con todas las funcionalidades trabajadas en el curso.

Para aprovechar al máximo este curso, los participantes deben haber completado DAT201 — Databricks Iniciación o demostrar un nivel equivalente de conocimiento práctico. Se asume que el estudiante es capaz de crear y ejecutar notebooks en Databricks, trabajar con DataFrames de Spark, leer y escribir datos en formato Delta Lake y comprender el modelo básico de clústeres. Son también recomendables nociones fundamentales de SQL y experiencia básica con Python o Scala en un entorno de análisis de datos.

Databricks — Intermedio

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria