Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales del ámbito de datos —analistas, ingenieros junior y científicos de datos en formación— que se enfrentan por primera vez a Apache Spark y necesitan comprender sus fundamentos antes de integrarlo en flujos de trabajo reales. A lo largo de las ocho horas de duración, el participante recorrerá el modelo conceptual de Spark —abstracciones de datos, evaluación perezosa y ciclo de ejecución—, pondrá en práctica las operaciones más habituales sobre DataFrames con PySpark en un entorno notebook preconfigurado y aprenderá a interpretar los errores más frecuentes, terminando con la capacidad de describir y ejecutar un pipeline completo de lectura, transformación y escritura de datos estructurados.
SparkSession operativa en un entorno notebook, comprobando que la sesión queda activa sin errores.select, filter y withColumn sobre un DataFrame PySpark para preparar un conjunto de datos de ejemplo siguiendo instrucciones guiadas.count, show, collect o write— e interpretar correctamente la salida producida por cada una.groupBy y agg en PySpark.AnalysisException o TypeError en un script PySpark con fallo intencionado.Bloque 1 — Fundamentos conceptuales de Apache Spark
El primer bloque establece las bases teóricas del ecosistema Spark. Se estudian las tres abstracciones de datos del framework —RDD, DataFrame y Dataset—, sus diferencias en términos de tipado, optimización y casos de uso en procesamiento por lotes, y los criterios que guían la elección de una u otra en función del contexto. A continuación se analiza el modelo de ejecución distribuida: qué son las transformaciones lazy, cómo se construye el plan de ejecución (DAG) y en qué momento las acciones desencadenan el cómputo real sobre el clúster. El bloque concluye describiendo el flujo canónico de un pipeline PySpark —lectura de fuentes, cadena de transformaciones, lanzamiento de acciones y escritura de resultados— y situando cada paso dentro del ciclo de vida de Spark.
Bloque 2 — Primeros pasos con PySpark en un entorno notebook
El segundo bloque es eminentemente práctico y arranca con la creación y configuración de una SparkSession en un entorno notebook preconfigurado, prestando atención a los parámetros más relevantes y a la verificación de que la sesión queda activa. Sobre esta base, el participante aplica de forma guiada las transformaciones más habituales sobre DataFrames: selección de columnas con select, filtrado de filas con filter y generación de nuevas columnas con withColumn. Se trabaja también la ejecución de acciones —count, show, collect y write— interpretando la salida de cada una y comprendiendo cuándo conviene usar cada opción según el volumen de datos y el destino final.
Bloque 3 — Agregaciones y diagnóstico de errores
El tercer bloque amplía el repertorio de transformaciones con las operaciones de agregación: uso combinado de groupBy y agg para calcular métricas básicas —conteos, sumas, medias— sobre datasets estructurados, con ejercicios guiados que reproducen casos de análisis habituales. Seguidamente se aborda el diagnóstico de errores frecuentes en PySpark: el participante analiza scripts con fallos intencionados para identificar el mensaje, localizar la línea problemática y determinar la causa probable de los errores AnalysisException y TypeError, adquiriendo así una base sólida para la depuración autónoma en proyectos reales.
Para aprovechar este curso el participante debe tener soltura con Python a nivel básico-intermedio: saber definir funciones, manejar estructuras de datos nativas (listas, diccionarios) y leer trazas de error. Es igualmente recomendable haber trabajado con alguna librería de manipulación de datos tabulares —preferiblemente pandas— y tener nociones elementales sobre el concepto de procesamiento distribuido, aunque no es imprescindible haberlo practicado. No se requiere experiencia previa con Spark ni con clústeres Hadoop.