Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Este curso está dirigido a profesionales y estudiantes sin experiencia previa en Machine Learning que deseen incorporarse al mundo del aprendizaje automático desde una base sólida y práctica. A lo largo de 8 horas, el participante recorrerá el ciclo inicial de un proyecto de ML: desde la identificación del tipo de problema adecuado para cada caso de uso hasta la construcción de un pipeline reproducible con scikit-learn, pasando por la exploración, limpieza, visualización y transformación de datos con las bibliotecas más utilizadas del ecosistema Python. Al finalizar, el alumno será capaz de preparar un dataset real, estructurar un flujo de preprocesamiento libre de fugas de datos y sentar las bases técnicas necesarias para entrenar sus primeros modelos de aprendizaje automático.
Bloque 1 — Fundamentos conceptuales de Machine Learning El curso arranca situando al participante en el mapa del aprendizaje automático: se definen los paradigmas supervisado y no supervisado, se distinguen los problemas de clasificación, regresión y clustering, y se trabaja con casos de uso reales para ejercitar la clasificación del tipo de problema antes de escribir una sola línea de código. A continuación se configura el entorno de trabajo: creación de un entorno virtual o Jupyter reproducible e instalación y verificación de las bibliotecas pandas, NumPy, scikit-learn, matplotlib y seaborn.
Bloque 2 — Exploración y calidad de los datos Una vez listo el entorno, el foco pasa a los datos. Se carga un dataset en formato CSV o Excel con pandas y se analiza su estructura —dimensiones, tipos por columna y estadísticas descriptivas básicas— para formarse una primera imagen de su estado. Sobre ese mismo dataset se localizan valores ausentes y duplicados y se aplican y comparan estrategias de limpieza (eliminación, imputación por media, mediana o moda), argumentando la elección columna a columna.
Bloque 3 — Visualización analítica Con los datos saneados, se construyen visualizaciones con matplotlib y seaborn para revelar la distribución de variables numéricas y categóricas, explorar relaciones entre pares de variables y detectar outliers y desequilibrios de clase que puedan condicionar el modelado posterior.
Bloque 4 — Preprocesamiento estructurado y pipelines
El bloque final aborda la transformación sistemática de los datos: escalado con StandardScaler o MinMaxScaler para variables numéricas y codificación con LabelEncoder u OneHotEncoder para variables categóricas, discutiendo los criterios de selección de cada técnica. Seguidamente se practica la partición del dataset en conjuntos de entrenamiento y prueba con train_test_split, justificando la proporción y fijando la semilla aleatoria para asegurar reproducibilidad. El cierre del curso integra todo lo anterior en un Pipeline de scikit-learn que encadena al menos dos pasos de preprocesamiento, se aplica por separado a cada conjunto y se verifica la ausencia de fuga de datos, consolidando así un flujo de trabajo profesional y listo para la fase de modelado.
pip o conda disponible en la terminal.pandas ≥ 2.0, numpy ≥ 1.24, scikit-learn ≥ 1.4, matplotlib ≥ 3.7, seaborn ≥ 0.13.