HACK A BOSS
FormaciónEvaluacionesPerfil
Volver
  • En directo

Bases de Datos Vectoriales: Optimización y Producción

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Bases de Datos Vectoriales

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Curso de nivel avanzado orientado a profesionales que ya diseñan e implementan pipelines RAG con criterios técnicos y quieren dominar las técnicas de optimización de retrieval y las consideraciones de arquitectura para desplegar sistemas RAG en producción. El punto de partida es la capacidad de seleccionar algoritmos de indexación, diseñar estrategias de chunking y evaluar la calidad del retrieval; el objetivo es ir más allá de la búsqueda vectorial estándar: implementar búsqueda híbrida (densa + dispersa) con fusión RRF, optimizar la precisión con reranking cross-encoder, mejorar el recall con query expansion (HyDE, multi-query), diseñar arquitecturas de producción con replicación y actualizaciones incrementales, adaptar modelos de embedding al dominio mediante fine-tuning, y monitorizar la calidad del sistema en producción. Al finalizar, el participante será capaz de operar un pipeline RAG productivo con técnicas avanzadas de optimización y observabilidad.

Al finalizar el curso, el participante será capaz de:

  • Implementar búsqueda híbrida combinando recuperación densa (vectorial) y dispersa (BM25) con fusión de resultados mediante Reciprocal Rank Fusion (RRF), verificando la mejora en recall respecto a la búsqueda vectorial sola
  • Optimizar la recuperación en un pipeline RAG aplicando reranking con cross-encoder sobre los candidatos de la búsqueda vectorial, midiendo la mejora en precision@k respecto al ranking original
  • Implementar HyDE (Hypothetical Document Embeddings) o expansión multi-query para mejorar el recall en consultas con vocabulario diferente al del corpus indexado
  • Diseñar la arquitectura de producción de una base de datos vectorial evaluando opciones de persistencia, replicación, estrategia de actualización incremental del índice y SLAs de latencia
  • Adaptar un modelo de embeddings a un dominio específico mediante fine-tuning con pares positivos/negativos usando sentence-transformers, evaluando la mejora en retrieval quality
  • Diseñar un sistema de monitorización para un pipeline RAG productivo, definiendo métricas de calidad de retrieval, latencia y drift en la distribución de consultas, con criterios de alerta
  1. Búsqueda híbrida con RRF Limitaciones de la búsqueda vectorial pura: vocabulary gap (términos técnicos, siglas, nombres propios); BM25 como recuperación dispersa: cómo funciona, en qué casos supera a la búsqueda vectorial; implementación de BM25 con rank-bm25 en Python; Reciprocal Rank Fusion (RRF): fórmula, parámetro k, por qué es robusto a las diferencias de escala entre sistemas; implementación de la fusión de rankings; soporte nativo de búsqueda híbrida en Weaviate, Qdrant y Pinecone; medición del impacto en recall con un conjunto de evaluación

  2. Reranking con cross-encoder Arquitectura bi-encoder vs cross-encoder: por qué el cross-encoder es más preciso pero más lento; pipeline en dos etapas: retrieval (bi-encoder, top-N candidatos) + reranking (cross-encoder, selección de top-k); modelos de cross-encoder de sentence-transformers: cross-encoder/ms-marco-MiniLM; implementación del reranking en Python; número óptimo de candidatos para el reranker (top-20 a top-100); comparativa de precision@k antes y después del reranking; uso de APIs de reranking: Cohere Rerank

  3. Query expansion: HyDE y multi-query El problema del vocabulary mismatch entre consulta y corpus; HyDE: generar un documento hipotético con el LLM y usar su embedding como vector de consulta; multi-query expansion: generar N reformulaciones de la consulta con el LLM y fusionar los resultados con RRF; cuándo usar HyDE vs multi-query; implementación con LangChain (MultiQueryRetriever) y desde cero; evaluación del impacto en recall; coste adicional (una o N llamadas al LLM por consulta)

  4. Arquitectura de producción de una BD vectorial Opciones de despliegue: managed (Pinecone, Weaviate Cloud), self-hosted (Qdrant, Weaviate, Milvus); replicación para alta disponibilidad: primary + replica de lectura; persistencia: índice en disco vs RAM + snapshot periódico; actualización incremental del índice: upsert sin full rebuild, gestión de versiones de embedding (cuando se cambia el modelo); estimación de capacidad: número de vectores, dimensionalidad, QPS objetivo y latencia; load testing con Locust o k6

  5. Fine-tuning de modelos de embedding Por qué los modelos generales no son óptimos para todos los dominios; tipos de datos de entrenamiento: pares (query, documento_positivo), tríos (query, positivo, negativo); función de pérdida MultipleNegativesRankingLoss y in-batch negatives; proceso con sentence-transformers v3: SentenceTransformerTrainer; preparación del dataset, split train/validation, número de épocas; evaluación de la mejora: MRR@10 antes y después del fine-tuning; cuándo el fine-tuning no mejora y qué hacer

  6. Monitorización y observabilidad de pipelines RAG Métricas de infraestructura: latencia P50/P95/P99 por componente (embedding, retrieval, reranking, LLM), tasa de error, QPS; métricas de calidad: score de similitud del top-1 resultado, tasa de respuestas "no tengo información", feedback explícito (thumbs up/down); LLM-as-judge: evaluar la calidad de las respuestas sin ground truth humano a muestreo; query distribution drift: detectar cuándo el corpus está quedándose viejo; datos de producción para diagnóstico: qué guardar de cada consulta y cómo usarlo en un post-mortem; herramientas: LangSmith, Arize Phoenix, RAGAS

  • Python 3.9+ con pip: chromadb, qdrant-client, sentence-transformers, rank-bm25, ragas, datasets, torch, locust
  • GPU opcional (recomendada para el fine-tuning): Google Colab o Kaggle Notebooks como alternativa gratuita
  • Cuenta en Hugging Face para descargar modelos y subir el modelo fine-tuneado
  • Editor de código (VS Code) con extensión Jupyter
  • Cuenta gratuita en Qdrant Cloud o Docker local para los ejercicios de arquitectura de producción

→ BDV02 — Bases de Datos Vectoriales: Indexación, Retrieval y RAG (Intermedio, 8h)

  • Seleccionar el algoritmo de indexación (HNSW, IVF, Flat) según el trade-off entre recall, latencia y memoria
  • Diseñar esquemas de metadatos y estrategias de filtrado (pre-filter vs post-filter) para búsqueda compuesta
  • Seleccionar el modelo de embeddings comparando dimensionalidad, calidad, soporte multilingüe y coste
  • Diseñar estrategias de chunking con tamaño y overlap justificados para distintos tipos de contenido
  • Evaluar la calidad del retrieval con precision@k, recall@k y MRR e interpretar los resultados
  • Integrar una BD vectorial en un pipeline RAG completo funcional con verificación de la relevancia del contexto