Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales de ciencia de datos que ya manejan los fundamentos de scikit-learn y buscan consolidar flujos de trabajo robustos y reproducibles para proyectos de aprendizaje supervisado de complejidad media-alta. A lo largo de las ocho horas de formación, los participantes aprenderán a construir pipelines completos que integren preprocesado heterogéneo y estimadores, a comparar algoritmos de forma fundamentada, a diseñar búsquedas de hiperparámetros eficientes y a seleccionar métricas de evaluación acordes al problema real, incluyendo escenarios de desbalance de clases. Al finalizar, cada participante habrá desarrollado un flujo de modelado end-to-end —libre de data leakage, validado con validación cruzada estratificada y optimizado mediante búsqueda de hiperparámetros— listo para ser aplicado sobre datos reales de su ámbito profesional.
Pipeline de scikit-learn y el papel de ColumnTransformer en el tratamiento diferenciado de variables numéricas y categóricas.ColumnTransformer, un estimador supervisado y validación cruzada estratificada, interpretando la media y desviación estándar de las puntuaciones resultantes.GridSearchCV o RandomizedSearchCV embebida en un pipeline, eligiendo entre ambas estrategias en función del tamaño del espacio de búsqueda y el coste computacional disponible.feature_importances_, coeficientes de modelos lineales y permutation_importance— señalando discrepancias y limitaciones de cada enfoque para apoyar la toma de decisiones sobre el modelo final.Bloque 1 — Pipelines y preprocesado heterogéneo
El bloque de apertura establece la arquitectura central del curso: el Pipeline de scikit-learn como estructura que encadena de forma segura transformaciones y estimadores. Se estudia ColumnTransformer como mecanismo para aplicar transformaciones diferenciadas a columnas numéricas y categóricas dentro del mismo pipeline, y se practica la construcción de flujos completos sobre datasets reales con variables de ambos tipos. Se presta especial atención a las garantías que ofrece el pipeline frente al data leakage accidental.
Bloque 2 — Comparación de algoritmos supervisados Este bloque aborda la selección razonada de algoritmos. Se comparan familias de modelos —regresión logística y regresión lineal como representantes lineales, árboles de decisión, Random Forest y Gradient Boosting como representantes basados en árboles— analizando su comportamiento en función del tamaño del dataset, la dimensionalidad, el balance de clases y los requisitos de interpretabilidad. El participante aprende a estructurar una comparación reproducible y a documentar la justificación de la elección final.
Bloque 3 — Validación cruzada estratificada y diagnóstico de modelos
Se introduce StratifiedKFold y cross_val_score como herramientas para estimar el rendimiento generalizable de un modelo. El bloque incluye la interpretación de la media y la desviación estándar de las puntuaciones para diagnosticar varianza o sesgo, y dedica una sesión específica a la detección y corrección de data leakage: se examinan flujos de trabajo con leakage deliberado, se identifica la causa raíz y se aplica la corrección integrando el preprocesado dentro del pipeline.
Bloque 4 — Métricas avanzadas y estrategia de evaluación
Partiendo de los límites de la exactitud como métrica por defecto, este bloque desarrolla la capacidad de seleccionar métricas acordes al problema. Se trabajan F1-macro, ROC-AUC y métricas de regresión (R², MAE) en escenarios de desbalance de clases y asimetría en el coste de error, practicando la justificación explícita del descarte de métricas inadecuadas y la configuración del scoring correspondiente en las utilidades de validación de scikit-learn.
Bloque 5 — Búsqueda de hiperparámetros e interpretabilidad
El bloque de cierre integra la optimización de modelos y el análisis de la importancia de variables. Se diseñan búsquedas con GridSearchCV y RandomizedSearchCV embebidas en pipelines completos, definiendo espacios de búsqueda que incluyen hiperparámetros del preprocesador y del estimador. Se justifica la elección entre ambas estrategias según el tamaño del espacio y el presupuesto computacional. A continuación, se comparan los valores de feature_importances_, los coeficientes de modelos lineales y permutation_importance, identificando discrepancias entre métodos y extrayendo conclusiones sobre las limitaciones de cada uno para la toma de decisiones final sobre el modelo.
Pipeline, ColumnTransformer, GridSearchCV y permutation_importance)..ipynb.sklearn.datasets u OpenML durante las sesiones prácticas.Para aprovechar este curso es necesario haber completado SCL01 — Scikit-learn Iniciación o contar con un dominio equivalente de los siguientes conceptos y habilidades:
train_test_split.LinearRegression, LogisticRegression, DecisionTreeClassifier).StandardScaler, MinMaxScaler, SimpleImputer, OneHotEncoder.