Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales que se incorporan por primera vez al entorno Databricks y que necesitan adquirir una base sólida para trabajar con notebooks y datos distribuidos en proyectos de ciencia de datos o analítica. A lo largo de las 8 horas, el participante conocerá la arquitectura del workspace, aprenderá a navegar por sus componentes principales y ejecutará sus primeros notebooks sobre un clúster guiado; progresando después hacia la manipulación de DataFrames con la API Spark, la lectura y escritura de ficheros en DBFS, y el uso de las herramientas de visualización integradas. Al finalizar, la persona será capaz de llevar a cabo un flujo de trabajo analítico completo —desde la ingesta de un fichero CSV o Parquet hasta la presentación visual de resultados— siguiendo buenas prácticas de legibilidad y organización del código.
Bloque 1 — El workspace de Databricks: componentes y conceptos clave Se presenta la arquitectura general del workspace: qué es un notebook, cómo se relaciona con un clúster, qué papel juegan el catálogo Unity y los repos, y cómo se organizan estos elementos en un proyecto real. Los participantes elaboran un diagrama o glosario propio que refleja las relaciones entre componentes. Se introduce también la dualidad de celdas Python y SQL dentro de un mismo notebook, analizando en qué escenarios resulta más apropiado cada modo y cómo transitar entre ambos sin perder el estado del DataFrame.
Bloque 2 — Primeros pasos con notebooks y gestión de errores Se guía a los participantes en la ejecución de un notebook completo sobre un clúster ya provisionado, comprobando que todas las celdas finalizan sin error y que la salida coincide con la esperada. A continuación se trabaja la lectura crítica de los mensajes de error: cómo distinguir un error de sintaxis Python de un error de Spark o de una tabla no encontrada, y cómo localizar la línea que describe la causa raíz para resolverlo con eficiencia.
Bloque 3 — Manipulación de datos con la API Spark DataFrame
Se abordan las operaciones fundamentales del API Spark DataFrame —select, filter, groupBy y withColumn— aplicadas sobre un dataset de ejemplo para responder a preguntas analíticas concretas proporcionadas en el enunciado. Se práctica la lectura de ficheros CSV y Parquet desde DBFS con spark.read y su escritura con df.write, verificando que el fichero de salida se genera en la ruta indicada y con el formato correcto.
Bloque 4 — Visualización y buenas prácticas de notebook
Se exploran las capacidades de visualización integradas de Databricks mediante la función display y sus opciones de gráfico, representando distribuciones y agregaciones sobre un DataFrame de ejemplo siguiendo instrucciones guiadas. El bloque cierra con un ejercicio de revisión de código: los participantes identifican en un notebook dado al menos dos buenas prácticas ausentes —celda sin comentario, variable sin nombre descriptivo, resultado sin display— y proponen y aplican las correcciones oportunas para dejar el notebook en condiciones de ser compartido con el equipo.