Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Curso de nivel avanzado orientado a profesionales que ya diseñan e implementan pipelines RAG con criterios técnicos y quieren dominar las técnicas de optimización de retrieval y las consideraciones de arquitectura para desplegar sistemas RAG en producción. El punto de partida es la capacidad de seleccionar algoritmos de indexación, diseñar estrategias de chunking y evaluar la calidad del retrieval; el objetivo es ir más allá de la búsqueda vectorial estándar: implementar búsqueda híbrida (densa + dispersa) con fusión RRF, optimizar la precisión con reranking cross-encoder, mejorar el recall con query expansion (HyDE, multi-query), diseñar arquitecturas de producción con replicación y actualizaciones incrementales, adaptar modelos de embedding al dominio mediante fine-tuning, y monitorizar la calidad del sistema en producción. Al finalizar, el participante será capaz de operar un pipeline RAG productivo con técnicas avanzadas de optimización y observabilidad.
Al finalizar el curso, el participante será capaz de:
Búsqueda híbrida con RRF Limitaciones de la búsqueda vectorial pura: vocabulary gap (términos técnicos, siglas, nombres propios); BM25 como recuperación dispersa: cómo funciona, en qué casos supera a la búsqueda vectorial; implementación de BM25 con rank-bm25 en Python; Reciprocal Rank Fusion (RRF): fórmula, parámetro k, por qué es robusto a las diferencias de escala entre sistemas; implementación de la fusión de rankings; soporte nativo de búsqueda híbrida en Weaviate, Qdrant y Pinecone; medición del impacto en recall con un conjunto de evaluación
Reranking con cross-encoder Arquitectura bi-encoder vs cross-encoder: por qué el cross-encoder es más preciso pero más lento; pipeline en dos etapas: retrieval (bi-encoder, top-N candidatos) + reranking (cross-encoder, selección de top-k); modelos de cross-encoder de sentence-transformers: cross-encoder/ms-marco-MiniLM; implementación del reranking en Python; número óptimo de candidatos para el reranker (top-20 a top-100); comparativa de precision@k antes y después del reranking; uso de APIs de reranking: Cohere Rerank
Query expansion: HyDE y multi-query El problema del vocabulary mismatch entre consulta y corpus; HyDE: generar un documento hipotético con el LLM y usar su embedding como vector de consulta; multi-query expansion: generar N reformulaciones de la consulta con el LLM y fusionar los resultados con RRF; cuándo usar HyDE vs multi-query; implementación con LangChain (MultiQueryRetriever) y desde cero; evaluación del impacto en recall; coste adicional (una o N llamadas al LLM por consulta)
Arquitectura de producción de una BD vectorial Opciones de despliegue: managed (Pinecone, Weaviate Cloud), self-hosted (Qdrant, Weaviate, Milvus); replicación para alta disponibilidad: primary + replica de lectura; persistencia: índice en disco vs RAM + snapshot periódico; actualización incremental del índice: upsert sin full rebuild, gestión de versiones de embedding (cuando se cambia el modelo); estimación de capacidad: número de vectores, dimensionalidad, QPS objetivo y latencia; load testing con Locust o k6
Fine-tuning de modelos de embedding Por qué los modelos generales no son óptimos para todos los dominios; tipos de datos de entrenamiento: pares (query, documento_positivo), tríos (query, positivo, negativo); función de pérdida MultipleNegativesRankingLoss y in-batch negatives; proceso con sentence-transformers v3: SentenceTransformerTrainer; preparación del dataset, split train/validation, número de épocas; evaluación de la mejora: MRR@10 antes y después del fine-tuning; cuándo el fine-tuning no mejora y qué hacer
Monitorización y observabilidad de pipelines RAG Métricas de infraestructura: latencia P50/P95/P99 por componente (embedding, retrieval, reranking, LLM), tasa de error, QPS; métricas de calidad: score de similitud del top-1 resultado, tasa de respuestas "no tengo información", feedback explícito (thumbs up/down); LLM-as-judge: evaluar la calidad de las respuestas sin ground truth humano a muestreo; query distribution drift: detectar cuándo el corpus está quedándose viejo; datos de producción para diagnóstico: qué guardar de cada consulta y cómo usarlo en un post-mortem; herramientas: LangSmith, Arize Phoenix, RAGAS
chromadb, qdrant-client, sentence-transformers, rank-bm25, ragas, datasets, torch, locust→ BDV02 — Bases de Datos Vectoriales: Indexación, Retrieval y RAG (Intermedio, 8h)