Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Dirigido a profesionales que ya manejan las operaciones básicas de Pandas y necesitan trabajar con datos reales de baja calidad y múltiples fuentes, este curso profundiza en los flujos de trabajo habituales de un analista o científico de datos. A lo largo de ocho horas, el participante aprenderá a integrar datos provenientes de formatos heterogéneos, a diseñar pipelines de limpieza robustos frente a valores nulos, duplicados y tipos inconsistentes, y a dominar las distintas estrategias de unión de DataFrames. Asimismo, explorará agregaciones multidimensionales con groupby y pivot_table, adaptará transformaciones genéricas a datasets con columnas de nombre o codificación irregulares, y desarrollará la capacidad de detectar y corregir errores silenciosos como el chained assignment o la pérdida de filas en un merge. Al finalizar el curso, el participante será capaz de construir y depurar un pipeline completo de preparación de datos sobre un caso real, argumentando y documentando cada decisión técnica adoptada.
inner, left, outer) y los mecanismos por los que operaciones como el chained assignment o el merge pueden producir resultados incorrectos de forma silenciosa.groupby y múltiples funciones, e interpretar el índice jerárquico resultante; construir la solución equivalente con pivot_table y justificar la elección entre ambas herramientas.Bloque 1 — Integración de datos heterogéneos. El curso arranca con la lectura y combinación de fuentes en formatos distintos (CSV, JSON y similares), prestando especial atención a los parámetros de importación que afectan al encoding y a los tipos inferidos. Se estudia cómo unificar esquemas dispares en un único DataFrame limpio y se examinan las decisiones de diseño que determinan la integridad del resultado final.
Bloque 2 — Calidad de datos y pipelines de limpieza. A continuación se aborda la detección y el tratamiento sistemático de valores nulos, duplicados y columnas con tipos inconsistentes. Los participantes diseñan un pipeline reproducible que aplica correcciones en un orden razonado, documenta cada paso y puede ejecutarse sobre nuevas versiones del mismo dataset sin modificación manual.
Bloque 3 — Uniones y combinaciones de DataFrames. Este bloque cubre en profundidad las operaciones merge y join, comparando los comportamientos de las uniones inner, left y outer sobre el mismo par de DataFrames. Se analiza cómo la elección del tipo de unión determina qué filas se conservan o se pierden, y se trabaja en la identificación de pérdidas silenciosas de datos.
Bloque 4 — Transformaciones y adaptación a datos reales. Se estudian las transformaciones más frecuentes —renombrado de columnas, reindexado, conversión de fechas y normalización de encodings— aplicadas a datasets con nombres de columna irregulares o codificaciones no estándar. El énfasis está en preservar los datos originales y construir transformaciones reutilizables.
Bloque 5 — Agregación multidimensional y tablas dinámicas. El bloque explora groupby con múltiples claves y varias funciones de agregación simultáneas, deteniéndose en la interpretación del índice jerárquico resultante. Seguidamente se construye la misma solución con pivot_table y se comparan la legibilidad, la flexibilidad y los casos de uso de cada enfoque, cerrando con criterios prácticos para elegir entre ambas herramientas.
Bloque 6 — Depuración de pipelines. El curso concluye con el diagnóstico y la corrección de errores habituales: chained assignment que modifica vistas en lugar del DataFrame original, pérdida de filas no advertida durante un merge, y columnas importadas como object que generan fallos en operaciones aritméticas. Se trabaja con aserciones y comprobaciones intermedias como práctica de verificación sistemática.
numpy (para aserciones numéricas), openpyxl (lectura opcional de Excel) y chardet o charset-normalizer (detección de encoding).Para aprovechar este curso el participante debe haber completado PAN01 — Pandas Iniciación o demostrar un dominio equivalente de los siguientes conceptos: creación y manipulación básica de Series y DataFrames, selección e indexación con loc e iloc, filtrado booleano, lectura de archivos CSV con read_csv, y operaciones de exploración con head, info y describe.