Boost Academy
LearningAssessmentsProfile
Back
  • Live

Bases de Datos Vectoriales: Optimización y Producción

8h of live classes·HACK A BOSS·Spanish

Skills you will learn

  • Bases de Datos Vectoriales

Schedules

You need an active plan

To access live courses you need an active plan. We're working on making plans available soon — stay tuned.

There are no open calls right now, but don't miss out: save this course and we'll notify you as soon as a call opens.

Description

Learning objectives

Syllabus

Technical requirements

Prerequisites

Schedule details

Resources

No resources are available yet for this schedule

Curso de nivel avanzado orientado a profesionales que ya diseñan e implementan pipelines RAG con criterios técnicos y quieren dominar las técnicas de optimización de retrieval y las consideraciones de arquitectura para desplegar sistemas RAG en producción. El punto de partida es la capacidad de seleccionar algoritmos de indexación, diseñar estrategias de chunking y evaluar la calidad del retrieval; el objetivo es ir más allá de la búsqueda vectorial estándar: implementar búsqueda híbrida (densa + dispersa) con fusión RRF, optimizar la precisión con reranking cross-encoder, mejorar el recall con query expansion (HyDE, multi-query), diseñar arquitecturas de producción con replicación y actualizaciones incrementales, adaptar modelos de embedding al dominio mediante fine-tuning, y monitorizar la calidad del sistema en producción. Al finalizar, el participante será capaz de operar un pipeline RAG productivo con técnicas avanzadas de optimización y observabilidad.

Al finalizar el curso, el participante será capaz de:

  • Implementar búsqueda híbrida combinando recuperación densa (vectorial) y dispersa (BM25) con fusión de resultados mediante Reciprocal Rank Fusion (RRF), verificando la mejora en recall respecto a la búsqueda vectorial sola
  • Optimizar la recuperación en un pipeline RAG aplicando reranking con cross-encoder sobre los candidatos de la búsqueda vectorial, midiendo la mejora en precision@k respecto al ranking original
  • Implementar HyDE (Hypothetical Document Embeddings) o expansión multi-query para mejorar el recall en consultas con vocabulario diferente al del corpus indexado
  • Diseñar la arquitectura de producción de una base de datos vectorial evaluando opciones de persistencia, replicación, estrategia de actualización incremental del índice y SLAs de latencia
  • Adaptar un modelo de embeddings a un dominio específico mediante fine-tuning con pares positivos/negativos usando sentence-transformers, evaluando la mejora en retrieval quality
  • Diseñar un sistema de monitorización para un pipeline RAG productivo, definiendo métricas de calidad de retrieval, latencia y drift en la distribución de consultas, con criterios de alerta
  1. Búsqueda híbrida con RRF Limitaciones de la búsqueda vectorial pura: vocabulary gap (términos técnicos, siglas, nombres propios); BM25 como recuperación dispersa: cómo funciona, en qué casos supera a la búsqueda vectorial; implementación de BM25 con rank-bm25 en Python; Reciprocal Rank Fusion (RRF): fórmula, parámetro k, por qué es robusto a las diferencias de escala entre sistemas; implementación de la fusión de rankings; soporte nativo de búsqueda híbrida en Weaviate, Qdrant y Pinecone; medición del impacto en recall con un conjunto de evaluación

  2. Reranking con cross-encoder Arquitectura bi-encoder vs cross-encoder: por qué el cross-encoder es más preciso pero más lento; pipeline en dos etapas: retrieval (bi-encoder, top-N candidatos) + reranking (cross-encoder, selección de top-k); modelos de cross-encoder de sentence-transformers: cross-encoder/ms-marco-MiniLM; implementación del reranking en Python; número óptimo de candidatos para el reranker (top-20 a top-100); comparativa de precision@k antes y después del reranking; uso de APIs de reranking: Cohere Rerank

  3. Query expansion: HyDE y multi-query El problema del vocabulary mismatch entre consulta y corpus; HyDE: generar un documento hipotético con el LLM y usar su embedding como vector de consulta; multi-query expansion: generar N reformulaciones de la consulta con el LLM y fusionar los resultados con RRF; cuándo usar HyDE vs multi-query; implementación con LangChain (MultiQueryRetriever) y desde cero; evaluación del impacto en recall; coste adicional (una o N llamadas al LLM por consulta)

  4. Arquitectura de producción de una BD vectorial Opciones de despliegue: managed (Pinecone, Weaviate Cloud), self-hosted (Qdrant, Weaviate, Milvus); replicación para alta disponibilidad: primary + replica de lectura; persistencia: índice en disco vs RAM + snapshot periódico; actualización incremental del índice: upsert sin full rebuild, gestión de versiones de embedding (cuando se cambia el modelo); estimación de capacidad: número de vectores, dimensionalidad, QPS objetivo y latencia; load testing con Locust o k6

  5. Fine-tuning de modelos de embedding Por qué los modelos generales no son óptimos para todos los dominios; tipos de datos de entrenamiento: pares (query, documento_positivo), tríos (query, positivo, negativo); función de pérdida MultipleNegativesRankingLoss y in-batch negatives; proceso con sentence-transformers v3: SentenceTransformerTrainer; preparación del dataset, split train/validation, número de épocas; evaluación de la mejora: MRR@10 antes y después del fine-tuning; cuándo el fine-tuning no mejora y qué hacer

  6. Monitorización y observabilidad de pipelines RAG Métricas de infraestructura: latencia P50/P95/P99 por componente (embedding, retrieval, reranking, LLM), tasa de error, QPS; métricas de calidad: score de similitud del top-1 resultado, tasa de respuestas "no tengo información", feedback explícito (thumbs up/down); LLM-as-judge: evaluar la calidad de las respuestas sin ground truth humano a muestreo; query distribution drift: detectar cuándo el corpus está quedándose viejo; datos de producción para diagnóstico: qué guardar de cada consulta y cómo usarlo en un post-mortem; herramientas: LangSmith, Arize Phoenix, RAGAS

  • Python 3.9+ con pip: chromadb, qdrant-client, sentence-transformers, rank-bm25, ragas, datasets, torch, locust
  • GPU opcional (recomendada para el fine-tuning): Google Colab o Kaggle Notebooks como alternativa gratuita
  • Cuenta en Hugging Face para descargar modelos y subir el modelo fine-tuneado
  • Editor de código (VS Code) con extensión Jupyter
  • Cuenta gratuita en Qdrant Cloud o Docker local para los ejercicios de arquitectura de producción

→ BDV02 — Bases de Datos Vectoriales: Indexación, Retrieval y RAG (Intermedio, 8h)

  • Seleccionar el algoritmo de indexación (HNSW, IVF, Flat) según el trade-off entre recall, latencia y memoria
  • Diseñar esquemas de metadatos y estrategias de filtrado (pre-filter vs post-filter) para búsqueda compuesta
  • Seleccionar el modelo de embeddings comparando dimensionalidad, calidad, soporte multilingüe y coste
  • Diseñar estrategias de chunking con tamaño y overlap justificados para distintos tipos de contenido
  • Evaluar la calidad del retrieval con precision@k, recall@k y MRR e interpretar los resultados
  • Integrar una BD vectorial en un pipeline RAG completo funcional con verificación de la relevancia del contexto