Boost Academy

Dirigido a profesionales que ya manejan las operaciones básicas de Pandas y necesitan trabajar con datos reales de baja calidad y múltiples fuentes, este curso profundiza en los flujos de trabajo habituales de un analista o científico de datos. A lo largo de ocho horas, el participante aprenderá a integrar datos provenientes de formatos heterogéneos, a diseñar pipelines de limpieza robustos frente a valores nulos, duplicados y tipos inconsistentes, y a dominar las distintas estrategias de unión de DataFrames. Asimismo, explorará agregaciones multidimensionales con groupby y pivot_table, adaptará transformaciones genéricas a datasets con columnas de nombre o codificación irregulares, y desarrollará la capacidad de detectar y corregir errores silenciosos como el chained assignment o la pérdida de filas en un merge. Al finalizar el curso, el participante será capaz de construir y depurar un pipeline completo de preparación de datos sobre un caso real, argumentando y documentando cada decisión técnica adoptada.

Explicar qué problemas de calidad de datos —valores nulos, duplicados y tipos inconsistentes— aparecen con mayor frecuencia en datasets reales y qué estrategias conceptuales existen para abordarlos.
Describir el comportamiento de los distintos tipos de unión (inner, left, outer) y los mecanismos por los que operaciones como el chained assignment o el merge pueden producir resultados incorrectos de forma silenciosa.
Diseñar un pipeline de limpieza que trate de forma sistemática al menos tres problemas de calidad deliberadamente introducidos en un dataset.
Integrar datos de al menos dos fuentes con formato distinto en un único DataFrame limpio, justificando las decisiones de combinación adoptadas.
Comparar los resultados de tres tipos de unión sobre el mismo par de DataFrames y argumentar cuál es el adecuado para el caso de uso planteado.
Diseñar una agregación multidimensional con groupby y múltiples funciones, e interpretar el índice jerárquico resultante; construir la solución equivalente con pivot_table y justificar la elección entre ambas herramientas.
Adaptar transformaciones genéricas —renombrado, reindexado, conversión de fechas y tipos— a datasets con columnas de nombre inconsistente o encoding no estándar, sin alterar los datos originales.
Depurar pipelines que produzcan resultados incorrectos por chained assignment, pérdida silenciosa de filas en un merge o errores de tipo en operaciones aritméticas, identificando la línea causante y verificando la corrección mediante aserciones.

Bloque 1 — Integración de datos heterogéneos. El curso arranca con la lectura y combinación de fuentes en formatos distintos (CSV, JSON y similares), prestando especial atención a los parámetros de importación que afectan al encoding y a los tipos inferidos. Se estudia cómo unificar esquemas dispares en un único DataFrame limpio y se examinan las decisiones de diseño que determinan la integridad del resultado final.

Bloque 2 — Calidad de datos y pipelines de limpieza. A continuación se aborda la detección y el tratamiento sistemático de valores nulos, duplicados y columnas con tipos inconsistentes. Los participantes diseñan un pipeline reproducible que aplica correcciones en un orden razonado, documenta cada paso y puede ejecutarse sobre nuevas versiones del mismo dataset sin modificación manual.

Bloque 3 — Uniones y combinaciones de DataFrames. Este bloque cubre en profundidad las operaciones merge y join, comparando los comportamientos de las uniones inner, left y outer sobre el mismo par de DataFrames. Se analiza cómo la elección del tipo de unión determina qué filas se conservan o se pierden, y se trabaja en la identificación de pérdidas silenciosas de datos.

Bloque 4 — Transformaciones y adaptación a datos reales. Se estudian las transformaciones más frecuentes —renombrado de columnas, reindexado, conversión de fechas y normalización de encodings— aplicadas a datasets con nombres de columna irregulares o codificaciones no estándar. El énfasis está en preservar los datos originales y construir transformaciones reutilizables.

Bloque 5 — Agregación multidimensional y tablas dinámicas. El bloque explora groupby con múltiples claves y varias funciones de agregación simultáneas, deteniéndose en la interpretación del índice jerárquico resultante. Seguidamente se construye la misma solución con pivot_table y se comparan la legibilidad, la flexibilidad y los casos de uso de cada enfoque, cerrando con criterios prácticos para elegir entre ambas herramientas.

Bloque 6 — Depuración de pipelines. El curso concluye con el diagnóstico y la corrección de errores habituales: chained assignment que modifica vistas en lugar del DataFrame original, pérdida de filas no advertida durante un merge, y columnas importadas como object que generan fallos en operaciones aritméticas. Se trabaja con aserciones y comprobaciones intermedias como práctica de verificación sistemática.

Python 3.9 o superior.
Pandas 2.0 o superior.
Jupyter Lab o Jupyter Notebook (recomendado: JupyterLab 4.x).
Bibliotecas auxiliares: numpy (para aserciones numéricas), openpyxl (lectura opcional de Excel) y chardet o charset-normalizer (detección de encoding).
Acceso a los datasets de práctica del repositorio del curso (se proporcionan al inicio en formato ZIP).
Conexión a internet para la descarga de materiales; no se requiere durante los ejercicios.

Para aprovechar este curso el participante debe haber completado PAN01 — Pandas Iniciación o demostrar un dominio equivalente de los siguientes conceptos: creación y manipulación básica de Series y DataFrames, selección e indexación con loc e iloc, filtrado booleano, lectura de archivos CSV con read_csv, y operaciones de exploración con head, info y describe.

Pandas — Intermedio

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria