Boost Academy

Este curso está dirigido a profesionales del ámbito de datos —analistas, ingenieros junior y científicos de datos en formación— que se enfrentan por primera vez a Apache Spark y necesitan comprender sus fundamentos antes de integrarlo en flujos de trabajo reales. A lo largo de las ocho horas de duración, el participante recorrerá el modelo conceptual de Spark —abstracciones de datos, evaluación perezosa y ciclo de ejecución—, pondrá en práctica las operaciones más habituales sobre DataFrames con PySpark en un entorno notebook preconfigurado y aprenderá a interpretar los errores más frecuentes, terminando con la capacidad de describir y ejecutar un pipeline completo de lectura, transformación y escritura de datos estructurados.

Distinguir las abstracciones principales de Spark —RDD, DataFrame y Dataset— y justificar la elección de cada una según el tipo de procesamiento por lotes requerido.
Diferenciar transformaciones lazy y acciones en un script PySpark, explicando el impacto de esta distinción en el modelo de ejecución distribuida.
Describir el flujo completo de un pipeline PySpark —lectura, transformación, acción y escritura— relacionando cada etapa con su función dentro del motor de ejecución Spark.
Crear y configurar una SparkSession operativa en un entorno notebook, comprobando que la sesión queda activa sin errores.
Aplicar las transformaciones select, filter y withColumn sobre un DataFrame PySpark para preparar un conjunto de datos de ejemplo siguiendo instrucciones guiadas.
Ejecutar acciones sobre un DataFrame —count, show, collect o write— e interpretar correctamente la salida producida por cada una.
Calcular métricas básicas sobre un dataset estructurado mediante operaciones de agregación con groupBy y agg en PySpark.
Diagnosticar la causa probable de errores habituales de tipo AnalysisException o TypeError en un script PySpark con fallo intencionado.

Bloque 1 — Fundamentos conceptuales de Apache Spark

El primer bloque establece las bases teóricas del ecosistema Spark. Se estudian las tres abstracciones de datos del framework —RDD, DataFrame y Dataset—, sus diferencias en términos de tipado, optimización y casos de uso en procesamiento por lotes, y los criterios que guían la elección de una u otra en función del contexto. A continuación se analiza el modelo de ejecución distribuida: qué son las transformaciones lazy, cómo se construye el plan de ejecución (DAG) y en qué momento las acciones desencadenan el cómputo real sobre el clúster. El bloque concluye describiendo el flujo canónico de un pipeline PySpark —lectura de fuentes, cadena de transformaciones, lanzamiento de acciones y escritura de resultados— y situando cada paso dentro del ciclo de vida de Spark.

Bloque 2 — Primeros pasos con PySpark en un entorno notebook

El segundo bloque es eminentemente práctico y arranca con la creación y configuración de una SparkSession en un entorno notebook preconfigurado, prestando atención a los parámetros más relevantes y a la verificación de que la sesión queda activa. Sobre esta base, el participante aplica de forma guiada las transformaciones más habituales sobre DataFrames: selección de columnas con select, filtrado de filas con filter y generación de nuevas columnas con withColumn. Se trabaja también la ejecución de acciones —count, show, collect y write— interpretando la salida de cada una y comprendiendo cuándo conviene usar cada opción según el volumen de datos y el destino final.

Bloque 3 — Agregaciones y diagnóstico de errores

El tercer bloque amplía el repertorio de transformaciones con las operaciones de agregación: uso combinado de groupBy y agg para calcular métricas básicas —conteos, sumas, medias— sobre datasets estructurados, con ejercicios guiados que reproducen casos de análisis habituales. Seguidamente se aborda el diagnóstico de errores frecuentes en PySpark: el participante analiza scripts con fallos intencionados para identificar el mensaje, localizar la línea problemática y determinar la causa probable de los errores AnalysisException y TypeError, adquiriendo así una base sólida para la depuración autónoma en proyectos reales.

Navegador web moderno (Chrome 110+, Firefox 115+ o Edge 110+) con acceso estable a internet, necesario para trabajar en el entorno notebook proporcionado por la plataforma.
El entorno de ejecución (Spark + PySpark + Jupyter/JupyterLab) es suministrado y preconfigurado por la plataforma; el participante no necesita instalar ningún software localmente.
Resolución de pantalla mínima recomendada: 1280 × 768 px, para visualizar cómodamente el notebook y la documentación en paralelo.
Acceso a los datasets de ejemplo facilitados en el repositorio del curso (enlace disponible en el aula virtual antes del inicio de la formación).

Para aprovechar este curso el participante debe tener soltura con Python a nivel básico-intermedio: saber definir funciones, manejar estructuras de datos nativas (listas, diccionarios) y leer trazas de error. Es igualmente recomendable haber trabajado con alguna librería de manipulación de datos tabulares —preferiblemente pandas— y tener nociones elementales sobre el concepto de procesamiento distribuido, aunque no es imprescindible haberlo practicado. No se requiere experiencia previa con Spark ni con clústeres Hadoop.

Apache Spark — Iniciación

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria