Boost Academy

Este curso está dirigido a profesionales y estudiantes sin experiencia previa en Machine Learning que deseen incorporarse al mundo del aprendizaje automático desde una base sólida y práctica. A lo largo de 8 horas, el participante recorrerá el ciclo inicial de un proyecto de ML: desde la identificación del tipo de problema adecuado para cada caso de uso hasta la construcción de un pipeline reproducible con scikit-learn, pasando por la exploración, limpieza, visualización y transformación de datos con las bibliotecas más utilizadas del ecosistema Python. Al finalizar, el alumno será capaz de preparar un dataset real, estructurar un flujo de preprocesamiento libre de fugas de datos y sentar las bases técnicas necesarias para entrenar sus primeros modelos de aprendizaje automático.

Reconocer los principales paradigmas y tipos de problemas de Machine Learning y asignar casos de uso concretos al tipo que les corresponde, razonando la elección.
Instalar y verificar un entorno de trabajo Python reproducible con las bibliotecas esenciales para proyectos de ML.
Cargar y explorar datasets tabulares con pandas, describiendo su estructura y detectando problemas de calidad de los datos.
Aplicar estrategias de limpieza de datos —eliminación e imputación— para tratar valores ausentes y registros duplicados, justificando la decisión en cada columna.
Generar visualizaciones de distribuciones y relaciones entre variables para identificar patrones relevantes, outliers y desequilibrios antes del modelado.
Aplicar transformaciones de escalado y codificación a variables numéricas y categóricas con scikit-learn, seleccionando la técnica apropiada según el contexto.
Estructurar el flujo de preprocesamiento mediante un Pipeline de scikit-learn que encadene transformaciones y garantice la ausencia de fuga de datos entre los conjuntos de entrenamiento y prueba.

Bloque 1 — Fundamentos conceptuales de Machine Learning El curso arranca situando al participante en el mapa del aprendizaje automático: se definen los paradigmas supervisado y no supervisado, se distinguen los problemas de clasificación, regresión y clustering, y se trabaja con casos de uso reales para ejercitar la clasificación del tipo de problema antes de escribir una sola línea de código. A continuación se configura el entorno de trabajo: creación de un entorno virtual o Jupyter reproducible e instalación y verificación de las bibliotecas pandas, NumPy, scikit-learn, matplotlib y seaborn.

Bloque 2 — Exploración y calidad de los datos Una vez listo el entorno, el foco pasa a los datos. Se carga un dataset en formato CSV o Excel con pandas y se analiza su estructura —dimensiones, tipos por columna y estadísticas descriptivas básicas— para formarse una primera imagen de su estado. Sobre ese mismo dataset se localizan valores ausentes y duplicados y se aplican y comparan estrategias de limpieza (eliminación, imputación por media, mediana o moda), argumentando la elección columna a columna.

Bloque 3 — Visualización analítica Con los datos saneados, se construyen visualizaciones con matplotlib y seaborn para revelar la distribución de variables numéricas y categóricas, explorar relaciones entre pares de variables y detectar outliers y desequilibrios de clase que puedan condicionar el modelado posterior.

Bloque 4 — Preprocesamiento estructurado y pipelines El bloque final aborda la transformación sistemática de los datos: escalado con StandardScaler o MinMaxScaler para variables numéricas y codificación con LabelEncoder u OneHotEncoder para variables categóricas, discutiendo los criterios de selección de cada técnica. Seguidamente se practica la partición del dataset en conjuntos de entrenamiento y prueba con train_test_split, justificando la proporción y fijando la semilla aleatoria para asegurar reproducibilidad. El cierre del curso integra todo lo anterior en un Pipeline de scikit-learn que encadena al menos dos pasos de preprocesamiento, se aplica por separado a cada conjunto y se verifica la ausencia de fuga de datos, consolidando así un flujo de trabajo profesional y listo para la fase de modelado.

Ordenador con sistema operativo Windows 10 / macOS 12 / Ubuntu 20.04 o superior.
Python 3.9 o superior instalado (se recomienda distribución Anaconda o Miniconda para simplificar la gestión de entornos).
Gestor de paquetes pip o conda disponible en la terminal.
Bibliotecas: pandas ≥ 2.0, numpy ≥ 1.24, scikit-learn ≥ 1.4, matplotlib ≥ 3.7, seaborn ≥ 0.13.
Jupyter Notebook o JupyterLab instalado (alternativa: VS Code con extensión Jupyter).
Conexión a internet para la descarga inicial de paquetes y datasets de práctica.
Mínimo 4 GB de RAM y 5 GB de espacio libre en disco.

Programación básica en Python: variables, estructuras de control, funciones y manejo de listas y diccionarios.
Nociones elementales de estadística descriptiva: media, mediana, moda, varianza y conceptos de distribución.
Familiaridad con la terminal o línea de comandos para instalar paquetes y gestionar entornos virtuales.
Capacidad para leer y escribir archivos en formato CSV o similar.

Machine Learning — Iniciación

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria