Boost Academy

Curso de nivel avanzado dirigido a profesionales que ya integran LLMs en aplicaciones y quieren entender la arquitectura interna de los modelos, seleccionar y evaluar modelos con criterios técnicos rigurosos, aplicar fine-tuning eficiente con técnicas LoRA/QLoRA, optimizar la inferencia para producción y diseñar sistemas LLM seguros con guardarraíles robustos. El curso combina comprensión arquitectónica con habilidades prácticas de MLOps para LLMs: desde evaluar si un modelo es el adecuado para un caso de uso hasta desplegar un sistema resiliente con SLAs de latencia y disponibilidad. Al finalizar, el participante será capaz de tomar decisiones técnicas fundamentadas sobre cualquier aspecto del ciclo de vida de un sistema LLM en producción.

Al finalizar el curso, el participante será capaz de:

Explicar los componentes clave de la arquitectura transformer —mecanismo de atención multi-head, positional encoding, bloques encoder/decoder— y el proceso de entrenamiento desde pre-entrenamiento hasta instruction tuning y RLHF, relacionando cada fase con las capacidades y limitaciones del modelo resultante
Evaluar y seleccionar modelos LLM para un caso de uso específico combinando benchmarks estándar con evaluación específica de dominio, justificando la selección con criterios explícitos de calidad, latencia, coste y privacidad
Diseñar y ejecutar un proceso de fine-tuning eficiente con LoRA o QLoRA sobre un modelo base open-source, evaluando la mejora sobre el modelo base y diagnosticando problemas como catastrophic forgetting u overfitting
Identificar cuellos de botella de latencia en un pipeline de inferencia LLM y aplicar técnicas de optimización —quantización, KV cache, batching dinámico— midiendo el impacto en throughput, latencia P95 y calidad
Diseñar la arquitectura de despliegue productivo de un sistema LLM con SLAs de latencia y disponibilidad, estimando la capacidad necesaria y proponiendo una estrategia de escalado que optimice el coste
Diseñar un sistema de guardarraíles que incluya validación de inputs (prompt injection, jailbreaks), validación de outputs (contenido dañino, datos sensibles) y estrategias de alineación, justificando las decisiones con criterios de cobertura, tasa de falsos positivos y latencia añadida

Arquitectura transformer y proceso de entrenamiento Mecanismo de self-attention: cómo cada token pondera a todos los demás, por qué supera a las RNN en dependencias de largo alcance; multi-head attention: qué aportan múltiples cabezas de atención; positional encoding: por qué el transformer no tiene noción de orden sin él; bloques del decoder: masked self-attention, cross-attention, feed-forward; pre-entrenamiento (next token prediction): qué aprende el modelo y qué no aprende; instruction tuning (SFT): de "completar texto" a "seguir instrucciones"; RLHF y Constitutional AI: por qué es necesario y qué comportamientos ajusta
Evaluación y selección de modelos Benchmarks estándar: MMLU (conocimiento general), HumanEval (código), MT-Bench (instrucciones multi-turno), LMSYS Arena (preferencias humanas); limitaciones de los benchmarks: contaminación de datos, Goodhart's law, gaming; evaluación específica de dominio: cómo construir un eval set representativo, métricas por tipo de tarea; criterios de selección: calidad, latencia P95, coste por llamada, privacidad (datos que salen del perimetro), contexto máximo; modelos open-source vs API
Fine-tuning eficiente con LoRA y QLoRA Por qué el fine-tuning completo es inviable para modelos grandes: coste de memoria y cómputo; LoRA: matrices de bajo rango, parámetros entrenables vs congelados, hiperparámetros clave (rank, alpha); QLoRA: quantización de 4 bits + LoRA, cuándo usar QLoRA vs LoRA; preparación del dataset: formato de los ejemplos, split train/validation, tamaño mínimo; evaluación de la mejora: métricas específicas de la tarea más allá de la loss; catastrophic forgetting: causas y mitigaciones; cuándo el fine-tuning no mejora
Optimización de inferencia Fuentes de latencia: TTFT (time to first token) vs generation latency; KV cache: qué es, por qué reduce el cómputo por token, cuándo se invalida; quantización INT8/INT4: reducción de footprint de memoria, trade-off de calidad; batching dinámico: cómo aumenta el throughput sin aumentar la latencia individual; speculative decoding: principio de draft + verify, cuándo es más efectivo; profiling de un pipeline: cómo identificar el cuello de botella (embedding, retrieval, LLM, red)
Arquitectura de producción API gateway y rate limiting; caché semántico: indexar respuestas por embedding de prompt, umbral de similitud; gestión de picos con colas; health checks y fallbacks entre modelos; observabilidad: latencia por componente, tasa de error, coste por request; dimensionamiento: estimación de QPS, VRAM necesaria, número de instancias; estrategia de escalado: horizontal vs vertical, autoscaling según latencia P95
Guardarraíles de seguridad y alineación Tipos de riesgo: prompt injection, jailbreaks, datos sensibles en output, alucinaciones con consecuencias, uso fuera de dominio; validación de input: clasificadores de injection, restricciones de tema; validación de output: detección de PII, verificación de formato, LLM-as-judge para criterios semánticos; system prompt de restricciones: cómo escribirlo, qué instrucciones resisten mejor los ataques; trade-off cobertura vs falsos positivos; OWASP LLM Top 10: los riesgos más frecuentes en producción y sus mitigaciones

Python 3.9+ con pip: transformers, peft, bitsandbytes, trl, datasets, torch, anthropic o openai
GPU para los ejercicios de fine-tuning: Google Colab Pro o Kaggle Notebooks como alternativa gratuita con GPU T4/A100
Cuenta en Hugging Face para descargar modelos base y subir el modelo fine-tuneado
Cuenta con créditos en un proveedor de LLM API (Anthropic, OpenAI) para los ejercicios de optimización y guardarraíles
Editor de código (VS Code) con extensión Jupyter para los notebooks de los ejercicios

→ LLM02 — Fundamentos de los LLMs: Prompting Avanzado e Integración (Intermedio, 6h)

Diseñar prompts con patrones avanzados (few-shot, chain-of-thought, output estructurado)
Comparar y seleccionar entre prompt engineering, RAG y fine-tuning con criterios explícitos
Detectar y mitigar alucinaciones en respuestas de LLMs
Gestionar contextos que superan la ventana con estrategias de resumen y map-reduce
Estimar y optimizar el coste de uso de la API de un LLM
Integrar la API de un LLM en Python con manejo de errores y estado conversacional

Fundamentos de los LLMs: Arquitectura, Fine-tuning y Producción

You need an active plan

Description

Learning objectives

Syllabus

Technical requirements

Prerequisites

Schedule details