Boost Academy
FormaciónEvaluacionesPerfil
Volver
  • En directo

Scikit-learn — Iniciación

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Scikit-learn

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Este curso está dirigido a perfiles que se inician en el aprendizaje automático y desean comenzar a trabajar con scikit-learn desde cero, sin experiencia previa en la biblioteca. A lo largo de las 8 horas de formación, el participante recorrerá el flujo estándar de un proyecto de machine learning supervisado: desde la comprensión del problema y la preparación de los datos hasta el entrenamiento de modelos de clasificación y regresión, su evaluación y la interpretación de los resultados. Al finalizar el curso, la persona será capaz de construir y ejecutar de forma guiada un pipeline básico completo en scikit-learn sobre un dataset tabular, identificar y corregir los errores más frecuentes en scripts reales, y reconocer riesgos como el data leakage que comprometen la validez de cualquier modelo.

  1. Describir el flujo estándar de trabajo en scikit-learn, explicando el propósito de cada etapa y el método principal que la ejecuta.
  2. Identificar el tipo de problema de aprendizaje automático —clasificación o regresión— a partir de un enunciado de negocio y seleccionar el estimador apropiado de scikit-learn que lo resuelve.
  3. Ejecutar la división de un dataset en conjuntos de entrenamiento y prueba configurando correctamente los parámetros de tamaño y semilla aleatoria, y verificando las dimensiones resultantes.
  4. Aplicar el flujo de entrenamiento, predicción y evaluación sobre un estimador de clasificación con parámetros por defecto usando un dataset tabular proporcionado.
  5. Aplicar el flujo de entrenamiento y predicción sobre un estimador de regresión, calculando e interpretando las métricas MAE y RMSE sobre el conjunto de prueba.
  6. Describir el concepto de data leakage en el preprocesado y detectar si una división de datos se ha realizado en el orden correcto dentro de un fragmento de código dado.
  7. Comprender el propósito de los codificadores de variables categóricas y aplicar uno de ellos sobre una columna de un dataset antes del entrenamiento, verificando que el modelo se ejecuta sin error.
  8. Identificar y corregir errores comunes de ejecución en un script de scikit-learn —tipos incompatibles, variables categóricas sin codificar y dimensiones incorrectas— hasta lograr una ejecución sin excepciones.

Bloque 1 — El ecosistema scikit-learn y el flujo de trabajo supervisado. Se presenta la biblioteca scikit-learn en el contexto del aprendizaje automático supervisado, repasando su arquitectura y la API unificada que comparten todos los estimadores. Se recorre de forma conceptual el flujo completo de un proyecto: carga y exploración inicial de datos, preprocesado, división en conjuntos de entrenamiento y prueba, entrenamiento del modelo, generación de predicciones y evaluación de resultados. Para cada etapa se identifican el método o función principal y el propósito que cumple dentro del proceso.

Bloque 2 — Definición del problema y selección del estimador. A partir de enunciados de negocio reales, se practica la identificación de la variable objetivo y su naturaleza —continua o categórica— para determinar si el problema es de regresión o de clasificación. Se revisa el mapa de estimadores de scikit-learn y se justifica la elección de modelos como LogisticRegression, DecisionTreeClassifier o LinearRegression en función del tipo de problema.

Bloque 3 — Preparación de datos: división y codificación. Se trabaja con train_test_split configurando test_size y random_state, y se verifica la integridad de las particiones resultantes. A continuación se aborda el preprocesado de variables categóricas: se explica el propósito de LabelEncoder y OneHotEncoder, y se aplica guiado uno de ellos sobre una columna real antes de la fase de entrenamiento. El bloque cierra con el concepto de data leakage: qué es, por qué compromete la validez del modelo y cómo detectarlo inspeccionando el orden de las operaciones en un fragmento de código.

Bloque 4 — Entrenamiento y evaluación de modelos. Se ejecuta de forma guiada el ciclo fit / predict / score sobre un clasificador, interpretando la métrica de exactitud obtenida. Se repite el ciclo con un modelo de regresión y se calculan manualmente MAE y RMSE usando mean_absolute_error y mean_squared_error. El bloque incluye un ejercicio de depuración en el que se identifican y corrigen al menos tres errores típicos —tipos de datos incompatibles, columnas categóricas sin codificar y dimensiones incorrectas en la matriz de características— hasta obtener una ejecución limpia.

  • Python 3.9 o superior instalado en el equipo o acceso a un entorno en la nube (Google Colab, JupyterHub, etc.).
  • Bibliotecas: scikit-learn >= 1.3, pandas >= 1.5, numpy >= 1.23. Instalables mediante pip install scikit-learn pandas numpy.
  • Opcional pero recomendado: matplotlib >= 3.6 para visualizaciones de apoyo durante los ejercicios.
  • Acceso a los datasets de práctica proporcionados por el instructor (formato CSV, disponibles en el repositorio del curso).
  • Navegador web moderno si se trabaja en entorno cloud (Chrome, Firefox o Edge en versión actualizada).
  • Programación en Python a nivel básico: variables, listas, diccionarios, bucles y funciones.
  • Manejo elemental de arrays con NumPy y de DataFrames con pandas (lectura, selección de columnas, tipos de datos).
  • Nociones conceptuales de estadística descriptiva: media, varianza y tipos de variables (numéricas y categóricas).
  • Familiaridad con entornos de cuadernos Jupyter o equivalentes para ejecutar código de forma interactiva.