Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a perfiles que se inician en el aprendizaje automático y desean comenzar a trabajar con scikit-learn desde cero, sin experiencia previa en la biblioteca. A lo largo de las 8 horas de formación, el participante recorrerá el flujo estándar de un proyecto de machine learning supervisado: desde la comprensión del problema y la preparación de los datos hasta el entrenamiento de modelos de clasificación y regresión, su evaluación y la interpretación de los resultados. Al finalizar el curso, la persona será capaz de construir y ejecutar de forma guiada un pipeline básico completo en scikit-learn sobre un dataset tabular, identificar y corregir los errores más frecuentes en scripts reales, y reconocer riesgos como el data leakage que comprometen la validez de cualquier modelo.
Bloque 1 — El ecosistema scikit-learn y el flujo de trabajo supervisado. Se presenta la biblioteca scikit-learn en el contexto del aprendizaje automático supervisado, repasando su arquitectura y la API unificada que comparten todos los estimadores. Se recorre de forma conceptual el flujo completo de un proyecto: carga y exploración inicial de datos, preprocesado, división en conjuntos de entrenamiento y prueba, entrenamiento del modelo, generación de predicciones y evaluación de resultados. Para cada etapa se identifican el método o función principal y el propósito que cumple dentro del proceso.
Bloque 2 — Definición del problema y selección del estimador. A partir de enunciados de negocio reales, se practica la identificación de la variable objetivo y su naturaleza —continua o categórica— para determinar si el problema es de regresión o de clasificación. Se revisa el mapa de estimadores de scikit-learn y se justifica la elección de modelos como LogisticRegression, DecisionTreeClassifier o LinearRegression en función del tipo de problema.
Bloque 3 — Preparación de datos: división y codificación. Se trabaja con train_test_split configurando test_size y random_state, y se verifica la integridad de las particiones resultantes. A continuación se aborda el preprocesado de variables categóricas: se explica el propósito de LabelEncoder y OneHotEncoder, y se aplica guiado uno de ellos sobre una columna real antes de la fase de entrenamiento. El bloque cierra con el concepto de data leakage: qué es, por qué compromete la validez del modelo y cómo detectarlo inspeccionando el orden de las operaciones en un fragmento de código.
Bloque 4 — Entrenamiento y evaluación de modelos. Se ejecuta de forma guiada el ciclo fit / predict / score sobre un clasificador, interpretando la métrica de exactitud obtenida. Se repite el ciclo con un modelo de regresión y se calculan manualmente MAE y RMSE usando mean_absolute_error y mean_squared_error. El bloque incluye un ejercicio de depuración en el que se identifican y corrigen al menos tres errores típicos —tipos de datos incompatibles, columnas categóricas sin codificar y dimensiones incorrectas en la matriz de características— hasta obtener una ejecución limpia.
scikit-learn >= 1.3, pandas >= 1.5, numpy >= 1.23. Instalables mediante pip install scikit-learn pandas numpy.matplotlib >= 3.6 para visualizaciones de apoyo durante los ejercicios.