Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales y analistas de datos que se adentran por primera vez en el procesamiento distribuido con PySpark y que cuentan con experiencia básica en Python y manipulación tabular de datos. A lo largo de las ocho horas del curso, el participante comprenderá cómo funciona el motor de ejecución de Apache Spark, aprenderá a configurar una sesión local, cargará datos desde distintas fuentes y aplicará las transformaciones y acciones fundamentales de la API DataFrame, para finalmente persistir los resultados en formatos estándar de la industria. Al terminar, el participante será capaz de construir de forma autónoma un flujo básico de carga, transformación y escritura de datos en PySpark dentro de un entorno notebook, con criterio suficiente para interpretar los errores más habituales y corregirlos.
SparkSession local en un notebook y verificar su estado, explicando el propósito de cada parámetro configurado.Bloque 1 — Fundamentos del procesamiento distribuido con Spark. Se introduce la arquitectura de Apache Spark: el rol del driver, los executors y el concepto de partición como unidad de paralelismo. Se contrasta este modelo con el procesamiento local de pandas, destacando las implicaciones para el diseño de pipelines de datos. A continuación se estudia el ciclo de vida de una operación Spark: se define con precisión qué son las transformaciones lazy —aquellas que construyen el plan de ejecución sin materializarlo— y qué son las acciones eager —las que desencadenan el cómputo efectivo—, clasificando operaciones habituales como filter, select, withColumn, count y show.
Bloque 2 — Configuración del entorno y creación de DataFrames. Se guía al participante en la inicialización de una SparkSession local dentro de un notebook, verificando que la sesión queda operativa y describiendo cada parámetro de configuración utilizado. Sobre esa sesión activa se practican las distintas vías de creación e ingesta de DataFrames: a partir de colecciones Python con createDataFrame, y desde ficheros externos con spark.read.csv y spark.read.json. En ambos casos se inspeccionan los esquemas inferidos mediante printSchema().
Bloque 3 — Transformaciones, acciones y persistencia de datos. Se aplican las transformaciones más frecuentes —select, filter, withColumn y drop— sobre un conjunto de datos guiado orientado a casos de negocio reales, como filtrar registros por importe o calcular columnas derivadas. Se analizan después las acciones de materialización show(), count() y collect(), explicando en qué escenarios collect() puede saturar la memoria del driver y cómo evitarlo. El bloque concluye con un flujo completo de carga-transformación-guardado: el participante lee datos en CSV, aplica transformaciones y escribe los resultados en formato Parquet, manejando las opciones básicas de spark.read y df.write.
Bloque 4 — Diagnóstico y resolución de errores habituales. Se presentan trazas de error reales de PySpark —AnalysisException, IllegalArgumentException, referencias a columnas inexistentes— y el participante aprende a leerlas sistemáticamente para identificar la causa raíz y aplicar la corrección adecuada. Este bloque integra los conocimientos anteriores al exigir razonar sobre el esquema, las transformaciones aplicadas y el plan de ejecución para localizar el origen del fallo.
pip install pyspark); en entornos locales se requiere Java 11 o superior en el PATH.import.