HACK A BOSS
FormaciónEvaluacionesPerfil
Volver
  • En directo

Machine Learning: Entorno, datos y preparación

6h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Machine Learning

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Dirigido a profesionales técnicos con Python básico que quieren dar sus primeros pasos en Machine Learning, este curso establece las bases operativas del proceso de ML antes del entrenamiento de modelos. El participante aprenderá a identificar qué tipo de problema ML aplica a cada caso, a configurar un entorno Python reproducible con las bibliotecas esenciales, y a recorrer el pipeline completo de preparación de datos: exploración, limpieza, visualización, transformación y división en conjuntos de entrenamiento y prueba. Al finalizar, el participante será capaz de recibir un dataset crudo, diagnosticar su calidad, prepararlo correctamente y entregarlo listo para el modelado, todo ello encadenado en un Pipeline de scikit-learn que garantiza la ausencia de fuga de datos.

Al finalizar el curso, el participante será capaz de:

  • Identificar los tipos de problemas de Machine Learning (supervisado, no supervisado, clasificación, regresión, clustering) y clasificar casos de uso concretos en el tipo correcto, justificando la elección
  • Configurar un entorno de trabajo Python reproducible para ML instalando y verificando las bibliotecas esenciales (pandas, numpy, scikit-learn, matplotlib, seaborn) en un entorno virtual o Jupyter
  • Cargar un dataset en formato CSV o Excel con pandas y describir su estructura, tipos de datos y estadísticas descriptivas, identificando posibles problemas de calidad
  • Identificar valores ausentes y duplicados en un dataset y aplicar estrategias básicas de limpieza (eliminación o imputación con media, mediana o moda), justificando la estrategia elegida para cada columna
  • Visualizar la distribución de variables numéricas y categóricas y las relaciones entre pares de variables, identificando patrones, outliers y desequilibrios en los datos
  • Aplicar transformaciones básicas a variables numéricas (StandardScaler o MinMaxScaler) y categóricas (LabelEncoder u OneHotEncoder) usando scikit-learn, explicando cuándo es apropiada cada una
  • Dividir un dataset en conjuntos de entrenamiento y prueba con train_test_split, justificando la proporción elegida y usando semilla aleatoria para garantizar reproducibilidad de los experimentos
  • Construir un Pipeline de scikit-learn que encadene al menos dos pasos de preprocesamiento y verificar que no hay fuga de datos entre los conjuntos de entrenamiento y prueba
  1. Mapa del territorio y entorno de trabajo Tipos de problemas ML: supervisado y no supervisado; clasificación, regresión y clustering; criterios de elección según el tipo de salida esperada y la presencia de etiquetas; propósito y uso de entornos virtuales (venv, conda); bibliotecas esenciales del ecosistema ML en Python: pandas, numpy, scikit-learn, matplotlib y seaborn; verificación del entorno y gestión de dependencias con requirements.txt o environment.yml

  2. Exploración, limpieza y visualización de datos Carga de datasets CSV/Excel con pandas; funciones de exploración: df.info(), df.describe(), df.shape; detección de valores ausentes con df.isnull() y duplicados con df.duplicated(); estrategias de limpieza: eliminación vs. imputación con media, mediana o moda; riesgo de data leakage al calcular estadísticos de imputación sobre el dataset completo antes del split; tipos de gráficos por tipo de variable: histograma, boxplot, countplot, scatter plot y heatmap de correlación; detección visual de outliers, asimetría y desequilibrio de clases en la variable objetivo

  3. Transformación, división y Pipeline Escalado de variables numéricas: StandardScaler vs. MinMaxScaler según la presencia de outliers; codificación de variables categóricas: OrdinalEncoder para ordinales, OneHotEncoder para nominales; división en conjuntos train/test con train_test_split: proporción, semilla aleatoria y parámetro stratify para conjuntos con clases desequilibradas; construcción de un Pipeline de scikit-learn que encadena transformadores garantizando que el ajuste ocurre solo sobre los datos de entrenamiento; verificación de ausencia de data leakage mediante inspección del orden de fit y transform

  • Python 3.9 o superior instalado en el sistema, o acceso a Google Colab como alternativa sin instalación local
  • Gestor de paquetes pip o conda para la creación y activación de entornos virtuales
  • Jupyter Notebook, JupyterLab o VS Code con extensión Python e IPython kernel
  • Acceso a internet para la instalación de bibliotecas y consulta de documentación
  • Bibliotecas: scikit-learn ≥ 1.0, pandas ≥ 1.5, numpy ≥ 1.23, matplotlib ≥ 3.5, seaborn ≥ 0.12

No hay curso prerrequisito formal. Se espera que el participante llegue con:

  • Conocimiento básico de Python 3: variables, tipos de datos, funciones, listas, diccionarios y bucles
  • Capacidad de importar módulos y usar la línea de comandos o terminal para instalar paquetes con pip
  • Familiaridad con el concepto de tabla de datos: filas como instancias y columnas como atributos
  • No es necesario haber trabajado con pandas ni con ninguna biblioteca de ML antes de este curso