Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Curso orientado a profesionales con experiencia previa en Apache Spark que buscan consolidar su capacidad para diseñar y depurar pipelines de datos robustos en entornos reales. A lo largo de las ocho horas de formación, el participante profundizará en la API DataFrame de PySpark, aprenderá a integrar fuentes heterogéneas y a tomar decisiones fundamentadas sobre particionado y almacenamiento eficiente; igualmente, explorará los mecanismos de introspección del optimizador Catalyst y dará sus primeros pasos en el procesamiento de flujos con Structured Streaming, obteniendo al final la capacidad de construir, depurar y optimizar pipelines de transformación de datos listos para producción.
Bloque 1 — RDDs, DataFrames y el optimizador Catalyst. Se revisa la evolución del modelo de programación en Spark, desde la API de bajo nivel de los RDDs hasta la abstracción de alto nivel que ofrecen los DataFrames, comparando ambas opciones con criterios de expresividad y rendimiento sobre un mismo problema de procesamiento. A continuación se introduce el optimizador Catalyst: el participante aprenderá a leer e interpretar los planes lógico y físico que genera el motor mediante .explain(), identificando qué versión de una consulta resulta más eficiente y por qué.
Bloque 2 — Integración de fuentes heterogéneas y transformación de datos. Este bloque aborda la ingesta unificada de ficheros CSV, JSON y Parquet en un único DataFrame, prestando especial atención a la resolución de conflictos de esquema y tipos. Sobre ese contexto de datos integrados se diseñan pipelines con múltiples etapas encadenadas de limpieza y agregación, y se trabaja la equivalencia entre consultas SQL y la DataFrame API, justificando en cada caso las diferencias de sintaxis y el comportamiento del plan de ejecución resultante.
Bloque 3 — Particionado, escritura eficiente y depuración de pipelines. Se estudian los criterios que guían una buena estrategia de particionado en Parquet: cardinalidad de la columna de partición, tamaño esperado de los ficheros y patrones de lectura posterior. El participante diseñará y ejecutará la escritura particionada y, acto seguido, afrontará la depuración de un pipeline con errores inducidos —fallos de tipo, valores nulos inesperados y lógica de agrupación incorrecta—, documentando la causa de cada fallo y la corrección aplicada.
Bloque 4 — Introducción a Spark Structured Streaming. El curso cierra con una introducción práctica al procesamiento de flujos mediante Structured Streaming. Partiendo de un flujo de datos simulado, el participante configurará una consulta continua que incluya al menos una transformación y una agregación con ventana temporal, evaluando cómo el motor gestiona el estado y la llegada tardía de eventos, y reflexionando sobre las implicaciones de pasar de un pipeline batch a uno de streaming.
pip install pyspark o acceso a un clúster preconfigurado.