Boost Academy

Este curso está dirigido a perfiles que se inician en el aprendizaje automático y desean comenzar a trabajar con scikit-learn desde cero, sin experiencia previa en la biblioteca. A lo largo de las 8 horas de formación, el participante recorrerá el flujo estándar de un proyecto de machine learning supervisado: desde la comprensión del problema y la preparación de los datos hasta el entrenamiento de modelos de clasificación y regresión, su evaluación y la interpretación de los resultados. Al finalizar el curso, la persona será capaz de construir y ejecutar de forma guiada un pipeline básico completo en scikit-learn sobre un dataset tabular, identificar y corregir los errores más frecuentes en scripts reales, y reconocer riesgos como el data leakage que comprometen la validez de cualquier modelo.

Describir el flujo estándar de trabajo en scikit-learn, explicando el propósito de cada etapa y el método principal que la ejecuta.
Identificar el tipo de problema de aprendizaje automático —clasificación o regresión— a partir de un enunciado de negocio y seleccionar el estimador apropiado de scikit-learn que lo resuelve.
Ejecutar la división de un dataset en conjuntos de entrenamiento y prueba configurando correctamente los parámetros de tamaño y semilla aleatoria, y verificando las dimensiones resultantes.
Aplicar el flujo de entrenamiento, predicción y evaluación sobre un estimador de clasificación con parámetros por defecto usando un dataset tabular proporcionado.
Aplicar el flujo de entrenamiento y predicción sobre un estimador de regresión, calculando e interpretando las métricas MAE y RMSE sobre el conjunto de prueba.
Describir el concepto de data leakage en el preprocesado y detectar si una división de datos se ha realizado en el orden correcto dentro de un fragmento de código dado.
Comprender el propósito de los codificadores de variables categóricas y aplicar uno de ellos sobre una columna de un dataset antes del entrenamiento, verificando que el modelo se ejecuta sin error.
Identificar y corregir errores comunes de ejecución en un script de scikit-learn —tipos incompatibles, variables categóricas sin codificar y dimensiones incorrectas— hasta lograr una ejecución sin excepciones.

Bloque 1 — El ecosistema scikit-learn y el flujo de trabajo supervisado. Se presenta la biblioteca scikit-learn en el contexto del aprendizaje automático supervisado, repasando su arquitectura y la API unificada que comparten todos los estimadores. Se recorre de forma conceptual el flujo completo de un proyecto: carga y exploración inicial de datos, preprocesado, división en conjuntos de entrenamiento y prueba, entrenamiento del modelo, generación de predicciones y evaluación de resultados. Para cada etapa se identifican el método o función principal y el propósito que cumple dentro del proceso.

Bloque 2 — Definición del problema y selección del estimador. A partir de enunciados de negocio reales, se practica la identificación de la variable objetivo y su naturaleza —continua o categórica— para determinar si el problema es de regresión o de clasificación. Se revisa el mapa de estimadores de scikit-learn y se justifica la elección de modelos como LogisticRegression, DecisionTreeClassifier o LinearRegression en función del tipo de problema.

Bloque 3 — Preparación de datos: división y codificación. Se trabaja con train_test_split configurando test_size y random_state, y se verifica la integridad de las particiones resultantes. A continuación se aborda el preprocesado de variables categóricas: se explica el propósito de LabelEncoder y OneHotEncoder, y se aplica guiado uno de ellos sobre una columna real antes de la fase de entrenamiento. El bloque cierra con el concepto de data leakage: qué es, por qué compromete la validez del modelo y cómo detectarlo inspeccionando el orden de las operaciones en un fragmento de código.

Bloque 4 — Entrenamiento y evaluación de modelos. Se ejecuta de forma guiada el ciclo fit / predict / score sobre un clasificador, interpretando la métrica de exactitud obtenida. Se repite el ciclo con un modelo de regresión y se calculan manualmente MAE y RMSE usando mean_absolute_error y mean_squared_error. El bloque incluye un ejercicio de depuración en el que se identifican y corrigen al menos tres errores típicos —tipos de datos incompatibles, columnas categóricas sin codificar y dimensiones incorrectas en la matriz de características— hasta obtener una ejecución limpia.

Python 3.9 o superior instalado en el equipo o acceso a un entorno en la nube (Google Colab, JupyterHub, etc.).
Bibliotecas: scikit-learn >= 1.3, pandas >= 1.5, numpy >= 1.23. Instalables mediante pip install scikit-learn pandas numpy.
Opcional pero recomendado: matplotlib >= 3.6 para visualizaciones de apoyo durante los ejercicios.
Acceso a los datasets de práctica proporcionados por el instructor (formato CSV, disponibles en el repositorio del curso).
Navegador web moderno si se trabaja en entorno cloud (Chrome, Firefox o Edge en versión actualizada).

Programación en Python a nivel básico: variables, listas, diccionarios, bucles y funciones.
Manejo elemental de arrays con NumPy y de DataFrames con pandas (lectura, selección de columnas, tipos de datos).
Nociones conceptuales de estadística descriptiva: media, varianza y tipos de variables (numéricas y categóricas).
Familiaridad con entornos de cuadernos Jupyter o equivalentes para ejecutar código de forma interactiva.

Scikit-learn — Iniciación

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria