Boost Academy
FormaciónEvaluacionesPerfil
Volver
  • En directo

Machine Learning — Avanzado

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Machine Learning

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Este curso está dirigido a profesionales con experiencia previa en modelado supervisado que buscan consolidar un dominio avanzado del ciclo de vida completo del machine learning. A lo largo de 8 horas, los participantes aprenderán a arquitecturar pipelines robustos y reproducibles, a diagnosticar y corregir problemas de generalización, a seleccionar y justificar métricas adaptadas al contexto de negocio, a optimizar hiperparámetros con estrategias computacionalmente eficientes y a gestionar el desbalance de clases de forma sistemática; todo ello culminando en el diseño de estrategias de ensamblado y en la automatización del reentrenamiento ante degradación del modelo en producción. Al finalizar, el participante será capaz de tomar decisiones técnicas fundamentadas en escenarios reales de despliegue y de entregar modelos que mantengan su rendimiento de forma sostenible.

  1. Describir los principios que garantizan la ausencia de data leakage y la reproducibilidad en un pipeline de ML end-to-end, y relacionarlos con los riesgos habituales en entornos de producción.
  2. Identificar las fuentes de desbalance de clases y enumerar las técnicas disponibles —resampling, ajuste de pesos y modificación del umbral de decisión— explicando en qué condiciones es apropiada cada una.
  3. Seleccionar y justificar el conjunto de métricas de evaluación adecuado a un problema dado, considerando distribución de clases, asimetría en el coste de errores y requisitos del negocio.
  4. Comparar al menos dos estrategias de búsqueda de hiperparámetros —incluyendo optimización bayesiana— analizando el equilibrio entre mejora obtenida y coste computacional.
  5. Diagnosticar problemas de generalización a partir de curvas de aprendizaje y métricas en conjuntos separados, y proponer acciones correctivas razonadas.
  6. Evaluar los trade-offs entre algoritmos alternativos para un mismo problema integrando rendimiento predictivo, interpretabilidad, coste de entrenamiento e inferencia, y restricciones de despliegue.
  7. Arquitecturar una estrategia de ensamblado —bagging, boosting o stacking— justificando la diversidad de los modelos base y verificando la mejora estadística respecto al mejor modelo individual.
  8. Diseñar un flujo automatizado de reentrenamiento que integre detección de drift, reentrenamiento condicional y validación antes del despliegue.

Bloque 1 — Pipelines robustos y evaluación rigurosa El curso abre con el diseño de pipelines de ML end-to-end que garanticen ausencia de data leakage y reproducibilidad entre entornos de desarrollo y producción; se examinan los puntos de fuga más frecuentes y los mecanismos estructurales para evitarlos. A continuación se aborda la evaluación crítica del rendimiento: cómo seleccionar y combinar métricas —precisión, recall, AUC, métricas de coste— en función de la distribución de clases, la asimetría en los errores y el contexto de negocio, evitando la confianza ciega en una única cifra.

Bloque 2 — Diagnóstico y corrección de problemas de generalización Este bloque se centra en la lectura e interpretación de curvas de aprendizaje como herramienta diagnóstica para distinguir overfitting, underfitting y distributional shift, y en la formulación de acciones correctivas justificadas —regularización, aumento de datos, recalibración— según el origen del problema. Se integra aquí el tratamiento del desbalance de clases: análisis de su impacto en las métricas, aplicación comparada de técnicas de resampling (oversampling y undersampling), ajuste de pesos de clase y modificación del umbral de decisión, con evaluación cuantitativa del efecto de cada intervención.

Bloque 3 — Optimización de hiperparámetros y selección de algoritmos Se estudian las estrategias de búsqueda de hiperparámetros —búsqueda aleatoria, optimización bayesiana y otras variantes— comparando su eficiencia computacional frente a la ganancia predictiva obtenida y estableciendo criterios para elegir la estrategia adecuada según el presupuesto de cómputo disponible. El bloque concluye con un análisis sistemático de trade-offs entre algoritmos alternativos para un mismo problema, incorporando dimensiones de rendimiento, interpretabilidad, latencia de inferencia y viabilidad operacional en producción.

Bloque 4 — Ensamblado avanzado y MLOps básico El curso cierra con dos capacidades integradoras. Primero, el diseño de estrategias de ensamblado —bagging, boosting y stacking—, con énfasis en la diversidad de los modelos base como requisito para la mejora efectiva y en la verificación estadística de esa mejora frente al mejor modelo individual. Segundo, la automatización del ciclo de vida del modelo en producción: detección de drift de datos y de concepto, lógica de reentrenamiento condicional y protocolo de validación previa al redespliegue, cerrando así el pipeline end-to-end iniciado en el primer bloque.

  • Python 3.9 o superior con entorno virtual gestionado (conda o venv).
  • Librerías: scikit-learn >= 1.3, imbalanced-learn, optuna (u otro framework de optimización bayesiana), xgboost o lightgbm, matplotlib, seaborn, pandas, numpy.
  • Entorno de ejecución: Jupyter Lab/Notebook o VS Code con extensión de notebooks; mínimo 8 GB de RAM recomendados.
  • Acceso a los datasets de práctica proporcionados en el repositorio del curso (enlace disponible en el aula virtual).
  • Dominio de los algoritmos supervisados fundamentales (regresión, árboles de decisión, SVM, modelos lineales y conjuntos básicos como Random Forest) a nivel intermedio.
  • Capacidad para construir y evaluar modelos con scikit-learn, incluyendo el uso de Pipeline, validación cruzada y métricas estándar.
  • Comprensión de los conceptos de partición de datos (train/validation/test) y de los problemas de overfitting y underfitting a nivel conceptual.
  • Familiaridad con Python y las librerías del ecosistema de datos (pandas, NumPy, matplotlib/seaborn).