Boost Academy

Dirigido a profesionales técnicos con Python básico que quieren dar sus primeros pasos en Machine Learning, este curso establece las bases operativas del proceso de ML antes del entrenamiento de modelos. El participante aprenderá a identificar qué tipo de problema ML aplica a cada caso, a configurar un entorno Python reproducible con las bibliotecas esenciales, y a recorrer el pipeline completo de preparación de datos: exploración, limpieza, visualización, transformación y división en conjuntos de entrenamiento y prueba. Al finalizar, el participante será capaz de recibir un dataset crudo, diagnosticar su calidad, prepararlo correctamente y entregarlo listo para el modelado, todo ello encadenado en un Pipeline de scikit-learn que garantiza la ausencia de fuga de datos.

Al finalizar el curso, el participante será capaz de:

Identificar los tipos de problemas de Machine Learning (supervisado, no supervisado, clasificación, regresión, clustering) y clasificar casos de uso concretos en el tipo correcto, justificando la elección
Configurar un entorno de trabajo Python reproducible para ML instalando y verificando las bibliotecas esenciales (pandas, numpy, scikit-learn, matplotlib, seaborn) en un entorno virtual o Jupyter
Cargar un dataset en formato CSV o Excel con pandas y describir su estructura, tipos de datos y estadísticas descriptivas, identificando posibles problemas de calidad
Identificar valores ausentes y duplicados en un dataset y aplicar estrategias básicas de limpieza (eliminación o imputación con media, mediana o moda), justificando la estrategia elegida para cada columna
Visualizar la distribución de variables numéricas y categóricas y las relaciones entre pares de variables, identificando patrones, outliers y desequilibrios en los datos
Aplicar transformaciones básicas a variables numéricas (StandardScaler o MinMaxScaler) y categóricas (LabelEncoder u OneHotEncoder) usando scikit-learn, explicando cuándo es apropiada cada una
Dividir un dataset en conjuntos de entrenamiento y prueba con train_test_split, justificando la proporción elegida y usando semilla aleatoria para garantizar reproducibilidad de los experimentos
Construir un Pipeline de scikit-learn que encadene al menos dos pasos de preprocesamiento y verificar que no hay fuga de datos entre los conjuntos de entrenamiento y prueba

Mapa del territorio y entorno de trabajo Tipos de problemas ML: supervisado y no supervisado; clasificación, regresión y clustering; criterios de elección según el tipo de salida esperada y la presencia de etiquetas; propósito y uso de entornos virtuales (venv, conda); bibliotecas esenciales del ecosistema ML en Python: pandas, numpy, scikit-learn, matplotlib y seaborn; verificación del entorno y gestión de dependencias con requirements.txt o environment.yml
Exploración, limpieza y visualización de datos Carga de datasets CSV/Excel con pandas; funciones de exploración: df.info(), df.describe(), df.shape; detección de valores ausentes con df.isnull() y duplicados con df.duplicated(); estrategias de limpieza: eliminación vs. imputación con media, mediana o moda; riesgo de data leakage al calcular estadísticos de imputación sobre el dataset completo antes del split; tipos de gráficos por tipo de variable: histograma, boxplot, countplot, scatter plot y heatmap de correlación; detección visual de outliers, asimetría y desequilibrio de clases en la variable objetivo
Transformación, división y Pipeline Escalado de variables numéricas: StandardScaler vs. MinMaxScaler según la presencia de outliers; codificación de variables categóricas: OrdinalEncoder para ordinales, OneHotEncoder para nominales; división en conjuntos train/test con train_test_split: proporción, semilla aleatoria y parámetro stratify para conjuntos con clases desequilibradas; construcción de un Pipeline de scikit-learn que encadena transformadores garantizando que el ajuste ocurre solo sobre los datos de entrenamiento; verificación de ausencia de data leakage mediante inspección del orden de fit y transform

Python 3.9 o superior instalado en el sistema, o acceso a Google Colab como alternativa sin instalación local
Gestor de paquetes pip o conda para la creación y activación de entornos virtuales
Jupyter Notebook, JupyterLab o VS Code con extensión Python e IPython kernel
Acceso a internet para la instalación de bibliotecas y consulta de documentación
Bibliotecas: scikit-learn ≥ 1.0, pandas ≥ 1.5, numpy ≥ 1.23, matplotlib ≥ 3.5, seaborn ≥ 0.12

No hay curso prerrequisito formal. Se espera que el participante llegue con:

Conocimiento básico de Python 3: variables, tipos de datos, funciones, listas, diccionarios y bucles
Capacidad de importar módulos y usar la línea de comandos o terminal para instalar paquetes con pip
Familiaridad con el concepto de tabla de datos: filas como instancias y columnas como atributos
No es necesario haber trabajado con pandas ni con ninguna biblioteca de ML antes de este curso

Machine Learning: Entorno, datos y preparación

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria