Boost Academy

Este curso está dirigido a profesionales con conocimientos fundamentales de Machine Learning que desean consolidar un flujo de trabajo robusto y reproducible para proyectos reales de mayor complejidad. A lo largo de las ocho horas de formación, los participantes aprenderán a estructurar pipelines completos con scikit-learn que eliminen la fuga de datos, a comparar y seleccionar algoritmos supervisados y no supervisados con criterio técnico, y a diagnosticar y corregir problemas de sobreajuste o subajuste mediante el análisis de curvas de aprendizaje. El curso pone especial énfasis en escenarios habituales pero exigentes: datasets con clases desbalanceadas, métricas de evaluación no triviales y optimización de hiperparámetros integrada de forma segura en el pipeline. Al finalizar, el participante será capaz de entregar un modelo evaluado con rigor, documentado y listo para revisión en un entorno colaborativo.

Reconocer los principios que rigen un pipeline de ML reproducible y las condiciones que provocan fuga de datos entre las fases de entrenamiento y evaluación.
Distinguir las propiedades clave de los principales algoritmos de aprendizaje supervisado y no supervisado en función de las características del dataset —tamaño, linealidad, presencia de outliers e interpretabilidad requerida—.
Identificar los síntomas de overfitting y underfitting y relacionarlos con sus causas raíz a través de la lectura e interpretación de curvas de aprendizaje.
Construir un pipeline completo de scikit-learn que integre preprocesamiento, transformaciones y modelo, garantizando que ninguna información del conjunto de evaluación contamine el entrenamiento.
Aplicar validación cruzada estratificada sobre problemas de clasificación con clases desbalanceadas, interpretando la media y la varianza de los scores por fold para emitir un juicio fundado sobre la estabilidad del modelo.
Seleccionar y justificar métricas de evaluación apropiadas para distintos tipos de problemas —clasificación binaria desbalanceada, regresión con outliers y clustering sin etiquetas—, argumentando explícitamente por qué se descartan las alternativas.
Integrar una búsqueda sistemática de hiperparámetros (GridSearchCV o RandomizedSearchCV) dentro del pipeline, asegurando que la optimización no accede al conjunto de test.
Diseñar una estrategia de tratamiento de datos desbalanceados —oversampling, undersampling o ajuste de pesos— y comparar al menos dos enfoques de clustering no supervisado usando métricas internas para justificar la configuración elegida.

Bloque 1 — Pipelines reproducibles y prevención de fuga de datos. Se presenta la arquitectura de un pipeline de ML con scikit-learn como eje vertebrador del curso. Los participantes aprenden a encadenar etapas de preprocesamiento, transformaciones y modelo en un objeto único que garantice la separación estricta entre entrenamiento y evaluación. Se analizan los errores más frecuentes que producen fuga de datos —escalado global, imputación calculada sobre todo el dataset— y se establecen las buenas prácticas para evitarlos desde el diseño inicial.

Bloque 2 — Selección y comparación de algoritmos supervisados. Se revisan los algoritmos de aprendizaje supervisado más relevantes —regresión regularizada, árboles de decisión, ensamblados y máquinas de vectores soporte, entre otros— poniendo el foco en sus supuestos, fortalezas y limitaciones. Los participantes practican la comparación sistemática de al menos tres algoritmos sobre un mismo problema, aprendiendo a razonar la selección final en función de características concretas del dataset: tamaño, estructura lineal o no lineal, sensibilidad a outliers y necesidad de interpretabilidad.

Bloque 3 — Diagnóstico y corrección de sobreajuste y subajuste. A través del análisis de curvas de aprendizaje y curvas de validación, los participantes aprenden a identificar si un modelo sufre overfitting o underfitting y a localizar la causa raíz —complejidad excesiva del modelo, volumen insuficiente de datos o ruido en las variables—. Se trabajan medidas correctoras concretas: regularización, reducción de complejidad, aumento de datos y selección de variables, evaluando su efecto observable en las curvas.

Bloque 4 — Evaluación rigurosa: métricas, validación cruzada y datos desbalanceados. Este bloque aborda la evaluación de modelos en condiciones reales, donde accuracy no es suficiente. Se estudia la validación cruzada estratificada como técnica de referencia para problemas con clases desbalanceadas, haciendo hincapié en la interpretación conjunta de la media y la varianza de los scores por fold. Paralelamente, se trabaja la selección razonada de métricas —precisión, recall, F1, AUC-ROC, MAE robusto, silhouette— justificando su idoneidad frente a alternativas descartadas en cada tipo de problema. Se introducen también las estrategias de tratamiento del desbalanceo: oversampling con SMOTE, undersampling y ajuste de pesos en el clasificador.

Bloque 5 — Optimización de hiperparámetros y clustering no supervisado. El bloque final integra la búsqueda de hiperparámetros —exhaustiva o aleatoria— dentro del pipeline para garantizar que la optimización opera exclusivamente sobre datos de entrenamiento. Los participantes configuran y analizan los resultados de GridSearchCV y RandomizedSearchCV, extrayendo conclusiones sobre el compromiso entre coste computacional y calidad del modelo. Como cierre del curso, se comparan dos aproximaciones de clustering no supervisado —K-Means y clustering jerárquico— sobre el mismo dataset, utilizando métricas internas como silhouette y Davies-Bouldin para argumentar la configuración más apropiada.

Python 3.10 o superior.
Entorno recomendado: JupyterLab ≥ 4.0 o VS Code con la extensión Jupyter.
Bibliotecas (instalables vía pip install -r requirements.txt proporcionado en el repositorio del curso):
- scikit-learn ≥ 1.4
- imbalanced-learn ≥ 0.12
- pandas ≥ 2.1
- numpy ≥ 1.26
- matplotlib ≥ 3.8
- seaborn ≥ 0.13
Hardware mínimo: 8 GB de RAM; procesador con 4 núcleos (los ejercicios de búsqueda de hiperparámetros se benefician de múltiples núcleos mediante n_jobs=-1).
Acceso a internet durante la sesión para la descarga de datasets desde sklearn.datasets y OpenML.

Para aprovechar este curso al máximo, los participantes deben haber completado MAL01 — Machine Learning Iniciación o disponer de un dominio equivalente. En concreto, se espera que sean capaces de: entrenar y evaluar modelos básicos de clasificación y regresión con scikit-learn; aplicar división train/test y calcular métricas fundamentales como accuracy, MSE o R²; manipular DataFrames con pandas y realizar operaciones vectoriales con NumPy; y conocer los conceptos de sesgo y varianza a nivel introductorio.

Machine Learning — Intermedio

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria