HACK A BOSS
FormaciónEvaluacionesPerfil
Volver
  • En directo

Fundamentos de los LLMs: Arquitectura, Fine-tuning y Producción

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Fundamentos de LLMs

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Curso de nivel avanzado dirigido a profesionales que ya integran LLMs en aplicaciones y quieren entender la arquitectura interna de los modelos, seleccionar y evaluar modelos con criterios técnicos rigurosos, aplicar fine-tuning eficiente con técnicas LoRA/QLoRA, optimizar la inferencia para producción y diseñar sistemas LLM seguros con guardarraíles robustos. El curso combina comprensión arquitectónica con habilidades prácticas de MLOps para LLMs: desde evaluar si un modelo es el adecuado para un caso de uso hasta desplegar un sistema resiliente con SLAs de latencia y disponibilidad. Al finalizar, el participante será capaz de tomar decisiones técnicas fundamentadas sobre cualquier aspecto del ciclo de vida de un sistema LLM en producción.

Al finalizar el curso, el participante será capaz de:

  • Explicar los componentes clave de la arquitectura transformer —mecanismo de atención multi-head, positional encoding, bloques encoder/decoder— y el proceso de entrenamiento desde pre-entrenamiento hasta instruction tuning y RLHF, relacionando cada fase con las capacidades y limitaciones del modelo resultante
  • Evaluar y seleccionar modelos LLM para un caso de uso específico combinando benchmarks estándar con evaluación específica de dominio, justificando la selección con criterios explícitos de calidad, latencia, coste y privacidad
  • Diseñar y ejecutar un proceso de fine-tuning eficiente con LoRA o QLoRA sobre un modelo base open-source, evaluando la mejora sobre el modelo base y diagnosticando problemas como catastrophic forgetting u overfitting
  • Identificar cuellos de botella de latencia en un pipeline de inferencia LLM y aplicar técnicas de optimización —quantización, KV cache, batching dinámico— midiendo el impacto en throughput, latencia P95 y calidad
  • Diseñar la arquitectura de despliegue productivo de un sistema LLM con SLAs de latencia y disponibilidad, estimando la capacidad necesaria y proponiendo una estrategia de escalado que optimice el coste
  • Diseñar un sistema de guardarraíles que incluya validación de inputs (prompt injection, jailbreaks), validación de outputs (contenido dañino, datos sensibles) y estrategias de alineación, justificando las decisiones con criterios de cobertura, tasa de falsos positivos y latencia añadida
  1. Arquitectura transformer y proceso de entrenamiento Mecanismo de self-attention: cómo cada token pondera a todos los demás, por qué supera a las RNN en dependencias de largo alcance; multi-head attention: qué aportan múltiples cabezas de atención; positional encoding: por qué el transformer no tiene noción de orden sin él; bloques del decoder: masked self-attention, cross-attention, feed-forward; pre-entrenamiento (next token prediction): qué aprende el modelo y qué no aprende; instruction tuning (SFT): de "completar texto" a "seguir instrucciones"; RLHF y Constitutional AI: por qué es necesario y qué comportamientos ajusta
  2. Evaluación y selección de modelos Benchmarks estándar: MMLU (conocimiento general), HumanEval (código), MT-Bench (instrucciones multi-turno), LMSYS Arena (preferencias humanas); limitaciones de los benchmarks: contaminación de datos, Goodhart's law, gaming; evaluación específica de dominio: cómo construir un eval set representativo, métricas por tipo de tarea; criterios de selección: calidad, latencia P95, coste por llamada, privacidad (datos que salen del perimetro), contexto máximo; modelos open-source vs API
  3. Fine-tuning eficiente con LoRA y QLoRA Por qué el fine-tuning completo es inviable para modelos grandes: coste de memoria y cómputo; LoRA: matrices de bajo rango, parámetros entrenables vs congelados, hiperparámetros clave (rank, alpha); QLoRA: quantización de 4 bits + LoRA, cuándo usar QLoRA vs LoRA; preparación del dataset: formato de los ejemplos, split train/validation, tamaño mínimo; evaluación de la mejora: métricas específicas de la tarea más allá de la loss; catastrophic forgetting: causas y mitigaciones; cuándo el fine-tuning no mejora
  4. Optimización de inferencia Fuentes de latencia: TTFT (time to first token) vs generation latency; KV cache: qué es, por qué reduce el cómputo por token, cuándo se invalida; quantización INT8/INT4: reducción de footprint de memoria, trade-off de calidad; batching dinámico: cómo aumenta el throughput sin aumentar la latencia individual; speculative decoding: principio de draft + verify, cuándo es más efectivo; profiling de un pipeline: cómo identificar el cuello de botella (embedding, retrieval, LLM, red)
  5. Arquitectura de producción API gateway y rate limiting; caché semántico: indexar respuestas por embedding de prompt, umbral de similitud; gestión de picos con colas; health checks y fallbacks entre modelos; observabilidad: latencia por componente, tasa de error, coste por request; dimensionamiento: estimación de QPS, VRAM necesaria, número de instancias; estrategia de escalado: horizontal vs vertical, autoscaling según latencia P95
  6. Guardarraíles de seguridad y alineación Tipos de riesgo: prompt injection, jailbreaks, datos sensibles en output, alucinaciones con consecuencias, uso fuera de dominio; validación de input: clasificadores de injection, restricciones de tema; validación de output: detección de PII, verificación de formato, LLM-as-judge para criterios semánticos; system prompt de restricciones: cómo escribirlo, qué instrucciones resisten mejor los ataques; trade-off cobertura vs falsos positivos; OWASP LLM Top 10: los riesgos más frecuentes en producción y sus mitigaciones
  • Python 3.9+ con pip: transformers, peft, bitsandbytes, trl, datasets, torch, anthropic o openai
  • GPU para los ejercicios de fine-tuning: Google Colab Pro o Kaggle Notebooks como alternativa gratuita con GPU T4/A100
  • Cuenta en Hugging Face para descargar modelos base y subir el modelo fine-tuneado
  • Cuenta con créditos en un proveedor de LLM API (Anthropic, OpenAI) para los ejercicios de optimización y guardarraíles
  • Editor de código (VS Code) con extensión Jupyter para los notebooks de los ejercicios

→ LLM02 — Fundamentos de los LLMs: Prompting Avanzado e Integración (Intermedio, 6h)

  • Diseñar prompts con patrones avanzados (few-shot, chain-of-thought, output estructurado)
  • Comparar y seleccionar entre prompt engineering, RAG y fine-tuning con criterios explícitos
  • Detectar y mitigar alucinaciones en respuestas de LLMs
  • Gestionar contextos que superan la ventana con estrategias de resumen y map-reduce
  • Estimar y optimizar el coste de uso de la API de un LLM
  • Integrar la API de un LLM en Python con manejo de errores y estado conversacional