Boost Academy

Curso de nivel avanzado orientado a profesionales que ya diseñan e implementan pipelines RAG con criterios técnicos y quieren dominar las técnicas de optimización de retrieval y las consideraciones de arquitectura para desplegar sistemas RAG en producción. El punto de partida es la capacidad de seleccionar algoritmos de indexación, diseñar estrategias de chunking y evaluar la calidad del retrieval; el objetivo es ir más allá de la búsqueda vectorial estándar: implementar búsqueda híbrida (densa + dispersa) con fusión RRF, optimizar la precisión con reranking cross-encoder, mejorar el recall con query expansion (HyDE, multi-query), diseñar arquitecturas de producción con replicación y actualizaciones incrementales, adaptar modelos de embedding al dominio mediante fine-tuning, y monitorizar la calidad del sistema en producción. Al finalizar, el participante será capaz de operar un pipeline RAG productivo con técnicas avanzadas de optimización y observabilidad.

Al finalizar el curso, el participante será capaz de:

Implementar búsqueda híbrida combinando recuperación densa (vectorial) y dispersa (BM25) con fusión de resultados mediante Reciprocal Rank Fusion (RRF), verificando la mejora en recall respecto a la búsqueda vectorial sola
Optimizar la recuperación en un pipeline RAG aplicando reranking con cross-encoder sobre los candidatos de la búsqueda vectorial, midiendo la mejora en precision@k respecto al ranking original
Implementar HyDE (Hypothetical Document Embeddings) o expansión multi-query para mejorar el recall en consultas con vocabulario diferente al del corpus indexado
Diseñar la arquitectura de producción de una base de datos vectorial evaluando opciones de persistencia, replicación, estrategia de actualización incremental del índice y SLAs de latencia
Adaptar un modelo de embeddings a un dominio específico mediante fine-tuning con pares positivos/negativos usando sentence-transformers, evaluando la mejora en retrieval quality
Diseñar un sistema de monitorización para un pipeline RAG productivo, definiendo métricas de calidad de retrieval, latencia y drift en la distribución de consultas, con criterios de alerta

Búsqueda híbrida con RRF Limitaciones de la búsqueda vectorial pura: vocabulary gap (términos técnicos, siglas, nombres propios); BM25 como recuperación dispersa: cómo funciona, en qué casos supera a la búsqueda vectorial; implementación de BM25 con rank-bm25 en Python; Reciprocal Rank Fusion (RRF): fórmula, parámetro k, por qué es robusto a las diferencias de escala entre sistemas; implementación de la fusión de rankings; soporte nativo de búsqueda híbrida en Weaviate, Qdrant y Pinecone; medición del impacto en recall con un conjunto de evaluación
Reranking con cross-encoder Arquitectura bi-encoder vs cross-encoder: por qué el cross-encoder es más preciso pero más lento; pipeline en dos etapas: retrieval (bi-encoder, top-N candidatos) + reranking (cross-encoder, selección de top-k); modelos de cross-encoder de sentence-transformers: cross-encoder/ms-marco-MiniLM; implementación del reranking en Python; número óptimo de candidatos para el reranker (top-20 a top-100); comparativa de precision@k antes y después del reranking; uso de APIs de reranking: Cohere Rerank
Query expansion: HyDE y multi-query El problema del vocabulary mismatch entre consulta y corpus; HyDE: generar un documento hipotético con el LLM y usar su embedding como vector de consulta; multi-query expansion: generar N reformulaciones de la consulta con el LLM y fusionar los resultados con RRF; cuándo usar HyDE vs multi-query; implementación con LangChain (MultiQueryRetriever) y desde cero; evaluación del impacto en recall; coste adicional (una o N llamadas al LLM por consulta)
Arquitectura de producción de una BD vectorial Opciones de despliegue: managed (Pinecone, Weaviate Cloud), self-hosted (Qdrant, Weaviate, Milvus); replicación para alta disponibilidad: primary + replica de lectura; persistencia: índice en disco vs RAM + snapshot periódico; actualización incremental del índice: upsert sin full rebuild, gestión de versiones de embedding (cuando se cambia el modelo); estimación de capacidad: número de vectores, dimensionalidad, QPS objetivo y latencia; load testing con Locust o k6
Fine-tuning de modelos de embedding Por qué los modelos generales no son óptimos para todos los dominios; tipos de datos de entrenamiento: pares (query, documento_positivo), tríos (query, positivo, negativo); función de pérdida MultipleNegativesRankingLoss y in-batch negatives; proceso con sentence-transformers v3: SentenceTransformerTrainer; preparación del dataset, split train/validation, número de épocas; evaluación de la mejora: MRR@10 antes y después del fine-tuning; cuándo el fine-tuning no mejora y qué hacer
Monitorización y observabilidad de pipelines RAG Métricas de infraestructura: latencia P50/P95/P99 por componente (embedding, retrieval, reranking, LLM), tasa de error, QPS; métricas de calidad: score de similitud del top-1 resultado, tasa de respuestas "no tengo información", feedback explícito (thumbs up/down); LLM-as-judge: evaluar la calidad de las respuestas sin ground truth humano a muestreo; query distribution drift: detectar cuándo el corpus está quedándose viejo; datos de producción para diagnóstico: qué guardar de cada consulta y cómo usarlo en un post-mortem; herramientas: LangSmith, Arize Phoenix, RAGAS

Python 3.9+ con pip: chromadb, qdrant-client, sentence-transformers, rank-bm25, ragas, datasets, torch, locust
GPU opcional (recomendada para el fine-tuning): Google Colab o Kaggle Notebooks como alternativa gratuita
Cuenta en Hugging Face para descargar modelos y subir el modelo fine-tuneado
Editor de código (VS Code) con extensión Jupyter
Cuenta gratuita en Qdrant Cloud o Docker local para los ejercicios de arquitectura de producción

→ BDV02 — Bases de Datos Vectoriales: Indexación, Retrieval y RAG (Intermedio, 8h)

Seleccionar el algoritmo de indexación (HNSW, IVF, Flat) según el trade-off entre recall, latencia y memoria
Diseñar esquemas de metadatos y estrategias de filtrado (pre-filter vs post-filter) para búsqueda compuesta
Seleccionar el modelo de embeddings comparando dimensionalidad, calidad, soporte multilingüe y coste
Diseñar estrategias de chunking con tamaño y overlap justificados para distintos tipos de contenido
Evaluar la calidad del retrieval con precision@k, recall@k y MRR e interpretar los resultados
Integrar una BD vectorial en un pipeline RAG completo funcional con verificación de la relevancia del contexto

Bases de Datos Vectoriales: Optimización y Producción

Necesitas un plan activo

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria