Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Dirigido a profesionales técnicos con Python básico que quieren dar sus primeros pasos en Machine Learning, este curso establece las bases operativas del proceso de ML antes del entrenamiento de modelos. El participante aprenderá a identificar qué tipo de problema ML aplica a cada caso, a configurar un entorno Python reproducible con las bibliotecas esenciales, y a recorrer el pipeline completo de preparación de datos: exploración, limpieza, visualización, transformación y división en conjuntos de entrenamiento y prueba. Al finalizar, el participante será capaz de recibir un dataset crudo, diagnosticar su calidad, prepararlo correctamente y entregarlo listo para el modelado, todo ello encadenado en un Pipeline de scikit-learn que garantiza la ausencia de fuga de datos.
Al finalizar el curso, el participante será capaz de:
Mapa del territorio y entorno de trabajo Tipos de problemas ML: supervisado y no supervisado; clasificación, regresión y clustering; criterios de elección según el tipo de salida esperada y la presencia de etiquetas; propósito y uso de entornos virtuales (venv, conda); bibliotecas esenciales del ecosistema ML en Python: pandas, numpy, scikit-learn, matplotlib y seaborn; verificación del entorno y gestión de dependencias con requirements.txt o environment.yml
Exploración, limpieza y visualización de datos Carga de datasets CSV/Excel con pandas; funciones de exploración: df.info(), df.describe(), df.shape; detección de valores ausentes con df.isnull() y duplicados con df.duplicated(); estrategias de limpieza: eliminación vs. imputación con media, mediana o moda; riesgo de data leakage al calcular estadísticos de imputación sobre el dataset completo antes del split; tipos de gráficos por tipo de variable: histograma, boxplot, countplot, scatter plot y heatmap de correlación; detección visual de outliers, asimetría y desequilibrio de clases en la variable objetivo
Transformación, división y Pipeline Escalado de variables numéricas: StandardScaler vs. MinMaxScaler según la presencia de outliers; codificación de variables categóricas: OrdinalEncoder para ordinales, OneHotEncoder para nominales; división en conjuntos train/test con train_test_split: proporción, semilla aleatoria y parámetro stratify para conjuntos con clases desequilibradas; construcción de un Pipeline de scikit-learn que encadena transformadores garantizando que el ajuste ocurre solo sobre los datos de entrenamiento; verificación de ausencia de data leakage mediante inspección del orden de fit y transform
No hay curso prerrequisito formal. Se espera que el participante llegue con: