Boost Academy

Este curso está dirigido a profesionales con experiencia previa en modelado supervisado que buscan consolidar un dominio avanzado del ciclo de vida completo del machine learning. A lo largo de 8 horas, los participantes aprenderán a arquitecturar pipelines robustos y reproducibles, a diagnosticar y corregir problemas de generalización, a seleccionar y justificar métricas adaptadas al contexto de negocio, a optimizar hiperparámetros con estrategias computacionalmente eficientes y a gestionar el desbalance de clases de forma sistemática; todo ello culminando en el diseño de estrategias de ensamblado y en la automatización del reentrenamiento ante degradación del modelo en producción. Al finalizar, el participante será capaz de tomar decisiones técnicas fundamentadas en escenarios reales de despliegue y de entregar modelos que mantengan su rendimiento de forma sostenible.

Describir los principios que garantizan la ausencia de data leakage y la reproducibilidad en un pipeline de ML end-to-end, y relacionarlos con los riesgos habituales en entornos de producción.
Identificar las fuentes de desbalance de clases y enumerar las técnicas disponibles —resampling, ajuste de pesos y modificación del umbral de decisión— explicando en qué condiciones es apropiada cada una.
Seleccionar y justificar el conjunto de métricas de evaluación adecuado a un problema dado, considerando distribución de clases, asimetría en el coste de errores y requisitos del negocio.
Comparar al menos dos estrategias de búsqueda de hiperparámetros —incluyendo optimización bayesiana— analizando el equilibrio entre mejora obtenida y coste computacional.
Diagnosticar problemas de generalización a partir de curvas de aprendizaje y métricas en conjuntos separados, y proponer acciones correctivas razonadas.
Evaluar los trade-offs entre algoritmos alternativos para un mismo problema integrando rendimiento predictivo, interpretabilidad, coste de entrenamiento e inferencia, y restricciones de despliegue.
Arquitecturar una estrategia de ensamblado —bagging, boosting o stacking— justificando la diversidad de los modelos base y verificando la mejora estadística respecto al mejor modelo individual.
Diseñar un flujo automatizado de reentrenamiento que integre detección de drift, reentrenamiento condicional y validación antes del despliegue.

Bloque 1 — Pipelines robustos y evaluación rigurosa El curso abre con el diseño de pipelines de ML end-to-end que garanticen ausencia de data leakage y reproducibilidad entre entornos de desarrollo y producción; se examinan los puntos de fuga más frecuentes y los mecanismos estructurales para evitarlos. A continuación se aborda la evaluación crítica del rendimiento: cómo seleccionar y combinar métricas —precisión, recall, AUC, métricas de coste— en función de la distribución de clases, la asimetría en los errores y el contexto de negocio, evitando la confianza ciega en una única cifra.

Bloque 2 — Diagnóstico y corrección de problemas de generalización Este bloque se centra en la lectura e interpretación de curvas de aprendizaje como herramienta diagnóstica para distinguir overfitting, underfitting y distributional shift, y en la formulación de acciones correctivas justificadas —regularización, aumento de datos, recalibración— según el origen del problema. Se integra aquí el tratamiento del desbalance de clases: análisis de su impacto en las métricas, aplicación comparada de técnicas de resampling (oversampling y undersampling), ajuste de pesos de clase y modificación del umbral de decisión, con evaluación cuantitativa del efecto de cada intervención.

Bloque 3 — Optimización de hiperparámetros y selección de algoritmos Se estudian las estrategias de búsqueda de hiperparámetros —búsqueda aleatoria, optimización bayesiana y otras variantes— comparando su eficiencia computacional frente a la ganancia predictiva obtenida y estableciendo criterios para elegir la estrategia adecuada según el presupuesto de cómputo disponible. El bloque concluye con un análisis sistemático de trade-offs entre algoritmos alternativos para un mismo problema, incorporando dimensiones de rendimiento, interpretabilidad, latencia de inferencia y viabilidad operacional en producción.

Bloque 4 — Ensamblado avanzado y MLOps básico El curso cierra con dos capacidades integradoras. Primero, el diseño de estrategias de ensamblado —bagging, boosting y stacking—, con énfasis en la diversidad de los modelos base como requisito para la mejora efectiva y en la verificación estadística de esa mejora frente al mejor modelo individual. Segundo, la automatización del ciclo de vida del modelo en producción: detección de drift de datos y de concepto, lógica de reentrenamiento condicional y protocolo de validación previa al redespliegue, cerrando así el pipeline end-to-end iniciado en el primer bloque.

Python 3.9 o superior con entorno virtual gestionado (conda o venv).
Librerías: scikit-learn >= 1.3, imbalanced-learn, optuna (u otro framework de optimización bayesiana), xgboost o lightgbm, matplotlib, seaborn, pandas, numpy.
Entorno de ejecución: Jupyter Lab/Notebook o VS Code con extensión de notebooks; mínimo 8 GB de RAM recomendados.
Acceso a los datasets de práctica proporcionados en el repositorio del curso (enlace disponible en el aula virtual).

Dominio de los algoritmos supervisados fundamentales (regresión, árboles de decisión, SVM, modelos lineales y conjuntos básicos como Random Forest) a nivel intermedio.
Capacidad para construir y evaluar modelos con scikit-learn, incluyendo el uso de Pipeline, validación cruzada y métricas estándar.
Comprensión de los conceptos de partición de datos (train/validation/test) y de los problemas de overfitting y underfitting a nivel conceptual.
Familiaridad con Python y las librerías del ecosistema de datos (pandas, NumPy, matplotlib/seaborn).

Machine Learning — Avanzado

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria