Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales con conocimientos fundamentales de Machine Learning que desean consolidar un flujo de trabajo robusto y reproducible para proyectos reales de mayor complejidad. A lo largo de las ocho horas de formación, los participantes aprenderán a estructurar pipelines completos con scikit-learn que eliminen la fuga de datos, a comparar y seleccionar algoritmos supervisados y no supervisados con criterio técnico, y a diagnosticar y corregir problemas de sobreajuste o subajuste mediante el análisis de curvas de aprendizaje. El curso pone especial énfasis en escenarios habituales pero exigentes: datasets con clases desbalanceadas, métricas de evaluación no triviales y optimización de hiperparámetros integrada de forma segura en el pipeline. Al finalizar, el participante será capaz de entregar un modelo evaluado con rigor, documentado y listo para revisión en un entorno colaborativo.
GridSearchCV o RandomizedSearchCV) dentro del pipeline, asegurando que la optimización no accede al conjunto de test.Bloque 1 — Pipelines reproducibles y prevención de fuga de datos. Se presenta la arquitectura de un pipeline de ML con scikit-learn como eje vertebrador del curso. Los participantes aprenden a encadenar etapas de preprocesamiento, transformaciones y modelo en un objeto único que garantice la separación estricta entre entrenamiento y evaluación. Se analizan los errores más frecuentes que producen fuga de datos —escalado global, imputación calculada sobre todo el dataset— y se establecen las buenas prácticas para evitarlos desde el diseño inicial.
Bloque 2 — Selección y comparación de algoritmos supervisados. Se revisan los algoritmos de aprendizaje supervisado más relevantes —regresión regularizada, árboles de decisión, ensamblados y máquinas de vectores soporte, entre otros— poniendo el foco en sus supuestos, fortalezas y limitaciones. Los participantes practican la comparación sistemática de al menos tres algoritmos sobre un mismo problema, aprendiendo a razonar la selección final en función de características concretas del dataset: tamaño, estructura lineal o no lineal, sensibilidad a outliers y necesidad de interpretabilidad.
Bloque 3 — Diagnóstico y corrección de sobreajuste y subajuste. A través del análisis de curvas de aprendizaje y curvas de validación, los participantes aprenden a identificar si un modelo sufre overfitting o underfitting y a localizar la causa raíz —complejidad excesiva del modelo, volumen insuficiente de datos o ruido en las variables—. Se trabajan medidas correctoras concretas: regularización, reducción de complejidad, aumento de datos y selección de variables, evaluando su efecto observable en las curvas.
Bloque 4 — Evaluación rigurosa: métricas, validación cruzada y datos desbalanceados. Este bloque aborda la evaluación de modelos en condiciones reales, donde accuracy no es suficiente. Se estudia la validación cruzada estratificada como técnica de referencia para problemas con clases desbalanceadas, haciendo hincapié en la interpretación conjunta de la media y la varianza de los scores por fold. Paralelamente, se trabaja la selección razonada de métricas —precisión, recall, F1, AUC-ROC, MAE robusto, silhouette— justificando su idoneidad frente a alternativas descartadas en cada tipo de problema. Se introducen también las estrategias de tratamiento del desbalanceo: oversampling con SMOTE, undersampling y ajuste de pesos en el clasificador.
Bloque 5 — Optimización de hiperparámetros y clustering no supervisado.
El bloque final integra la búsqueda de hiperparámetros —exhaustiva o aleatoria— dentro del pipeline para garantizar que la optimización opera exclusivamente sobre datos de entrenamiento. Los participantes configuran y analizan los resultados de GridSearchCV y RandomizedSearchCV, extrayendo conclusiones sobre el compromiso entre coste computacional y calidad del modelo. Como cierre del curso, se comparan dos aproximaciones de clustering no supervisado —K-Means y clustering jerárquico— sobre el mismo dataset, utilizando métricas internas como silhouette y Davies-Bouldin para argumentar la configuración más apropiada.
pip install -r requirements.txt proporcionado en el repositorio del curso):
scikit-learn ≥ 1.4imbalanced-learn ≥ 0.12pandas ≥ 2.1numpy ≥ 1.26matplotlib ≥ 3.8seaborn ≥ 0.13n_jobs=-1).sklearn.datasets y OpenML.Para aprovechar este curso al máximo, los participantes deben haber completado MAL01 — Machine Learning Iniciación o disponer de un dominio equivalente. En concreto, se espera que sean capaces de: entrenar y evaluar modelos básicos de clasificación y regresión con scikit-learn; aplicar división train/test y calcular métricas fundamentales como accuracy, MSE o R²; manipular DataFrames con pandas y realizar operaciones vectoriales con NumPy; y conocer los conceptos de sesgo y varianza a nivel introductorio.