Boost Academy

Este curso está dirigido a profesionales que se incorporan por primera vez al entorno Databricks y que necesitan adquirir una base sólida para trabajar con notebooks y datos distribuidos en proyectos de ciencia de datos o analítica. A lo largo de las 8 horas, el participante conocerá la arquitectura del workspace, aprenderá a navegar por sus componentes principales y ejecutará sus primeros notebooks sobre un clúster guiado; progresando después hacia la manipulación de DataFrames con la API Spark, la lectura y escritura de ficheros en DBFS, y el uso de las herramientas de visualización integradas. Al finalizar, la persona será capaz de llevar a cabo un flujo de trabajo analítico completo —desde la ingesta de un fichero CSV o Parquet hasta la presentación visual de resultados— siguiendo buenas prácticas de legibilidad y organización del código.

Describir los componentes principales del workspace de Databricks y la diferencia entre celdas Python y SQL, explicando la función de cada elemento en el contexto de un proyecto de datos.
Identificar el tipo de error producido en una celda de notebook localizando la causa raíz en el mensaje, y detectar en un notebook dado las buenas prácticas ausentes proponiendo su corrección.
Ejecutar notebooks de forma guiada sobre un clúster ya configurado, realizando la lectura y escritura de ficheros CSV y Parquet desde DBFS y verificando la coherencia de los resultados.
Aplicar las operaciones básicas de la API Spark DataFrame para responder preguntas analíticas concretas y representar distribuciones y agregaciones mediante las herramientas de visualización integradas de Databricks.

Bloque 1 — El workspace de Databricks: componentes y conceptos clave Se presenta la arquitectura general del workspace: qué es un notebook, cómo se relaciona con un clúster, qué papel juegan el catálogo Unity y los repos, y cómo se organizan estos elementos en un proyecto real. Los participantes elaboran un diagrama o glosario propio que refleja las relaciones entre componentes. Se introduce también la dualidad de celdas Python y SQL dentro de un mismo notebook, analizando en qué escenarios resulta más apropiado cada modo y cómo transitar entre ambos sin perder el estado del DataFrame.

Bloque 2 — Primeros pasos con notebooks y gestión de errores Se guía a los participantes en la ejecución de un notebook completo sobre un clúster ya provisionado, comprobando que todas las celdas finalizan sin error y que la salida coincide con la esperada. A continuación se trabaja la lectura crítica de los mensajes de error: cómo distinguir un error de sintaxis Python de un error de Spark o de una tabla no encontrada, y cómo localizar la línea que describe la causa raíz para resolverlo con eficiencia.

Bloque 3 — Manipulación de datos con la API Spark DataFrame Se abordan las operaciones fundamentales del API Spark DataFrame —select, filter, groupBy y withColumn— aplicadas sobre un dataset de ejemplo para responder a preguntas analíticas concretas proporcionadas en el enunciado. Se práctica la lectura de ficheros CSV y Parquet desde DBFS con spark.read y su escritura con df.write, verificando que el fichero de salida se genera en la ruta indicada y con el formato correcto.

Bloque 4 — Visualización y buenas prácticas de notebook Se exploran las capacidades de visualización integradas de Databricks mediante la función display y sus opciones de gráfico, representando distribuciones y agregaciones sobre un DataFrame de ejemplo siguiendo instrucciones guiadas. El bloque cierra con un ejercicio de revisión de código: los participantes identifican en un notebook dado al menos dos buenas prácticas ausentes —celda sin comentario, variable sin nombre descriptivo, resultado sin display— y proponen y aplican las correcciones oportunas para dejar el notebook en condiciones de ser compartido con el equipo.

Acceso a un workspace de Databricks activo (edición Community o licencia corporativa) con permisos para crear y ejecutar notebooks.
Clúster de Databricks Runtime 13.x LTS o superior ya provisionado y en estado Running al inicio de cada sesión (puede ser facilitado por el instructor).
Navegador web moderno (Chrome 110+, Firefox 110+ o Edge 110+) con conexión estable a internet; no se requiere instalación local de software adicional.
Dataset de ejemplo en formato CSV y Parquet cargado en DBFS o proporcionado como adjunto del curso antes de la sesión práctica.

Programación básica en Python (variables, funciones, estructuras de control y manejo de colecciones).
Familiaridad con el concepto de tabla y operaciones elementales de consulta (filtrar, agrupar, agregar), independientemente del lenguaje o herramienta utilizada.
Nociones generales sobre formatos de fichero tabulares (CSV) y entornos cloud; no se requiere experiencia previa con Spark ni con Databricks.

Databricks — Iniciación

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria