HACK A BOSS
FormaciónEvaluacionesPerfil
Volver
  • En directo

Bases de Datos Vectoriales: Indexación, Retrieval y RAG

8h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Bases de Datos Vectoriales

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Curso de nivel intermedio orientado a profesionales que ya entienden qué es un embedding, conocen las operaciones básicas sobre un índice vectorial y han construido un prototipo de búsqueda semántica, y quieren dar el salto al diseño técnico de sistemas RAG de calidad de producción. El punto de partida es el dominio de los fundamentos de embeddings, similitud vectorial y operaciones CRUD sobre ChromaDB; el objetivo es aplicar criterios de diseño para construir sistemas de retrieval eficientes: seleccionar el algoritmo de indexación según los requisitos de escala y latencia, diseñar esquemas de metadatos con estrategias de filtrado adecuadas, elegir el modelo de embeddings correcto para el dominio, diseñar una estrategia de chunking rigurosa, evaluar la calidad del retrieval con métricas estándar y construir un pipeline RAG completo funcional. Al finalizar, el participante será capaz de diseñar e implementar un pipeline RAG con criterios técnicos explícitos y medir su calidad.

Al finalizar el curso, el participante será capaz de:

  • Seleccionar el algoritmo de indexación más adecuado (HNSW, IVF, Flat) para un caso de uso dado, justificando el trade-off entre recall, latencia y coste de memoria
  • Diseñar un esquema de metadatos y seleccionar la estrategia de filtrado (pre-filter vs post-filter) más adecuada para una colección vectorial con requisitos de búsqueda compuesta
  • Seleccionar el modelo de embeddings adecuado para un dominio específico comparando dimensionalidad, calidad en el dominio, soporte multilingüe, latencia y coste
  • Diseñar una estrategia de chunking y preprocesamiento de documentos para un pipeline RAG, justificando el tamaño de chunk, la superposición y el método de partición según el tipo de contenido
  • Evaluar la calidad del sistema de recuperación de un pipeline RAG usando métricas estándar (precision@k, recall@k, MRR) e interpretar los resultados para identificar mejoras concretas
  • Integrar una base de datos vectorial en un pipeline RAG completo: chunking, generación de embeddings, indexación, recuperación y construcción del prompt con contexto verificando la relevancia
  1. Algoritmos de indexación vectorial Limitaciones del índice Flat para colecciones grandes: coste O(N) en consulta; ANN (Approximate Nearest Neighbor): sacrificar recall exacto por latencia sublineal; HNSW: grafo multicapa, parámetros M y ef_construction en indexación, ef_search en consulta; IVF: partición del espacio en clusters, parámetro nlist y nprobe; criterios de selección: volumen, latencia objetivo, recall mínimo aceptable, frecuencia de actualizaciones; comparativa de rendimiento y memoria: Flat vs IVF vs HNSW; cómo los configuran ChromaDB, Qdrant y Pinecone

  2. Metadatos y filtrado en BDs vectoriales Diseño de esquemas de metadatos: tipos soportados (string, numérico, booleano, fecha), cardinalidad y eficiencia de filtrado; estrategia pre-filter: filtrar candidatos antes de la búsqueda vectorial — ventajas con filtros selectivos; estrategia post-filter: búsqueda vectorial completa + filtrado de resultados — ventajas con filtros poco selectivos; metadatos adecuados vs texto libre que debe embeberse; implementación de filtered search en ChromaDB y Qdrant; diseño de namespaces para multi-tenant

  3. Selección del modelo de embeddings Dimensionalidad del vector: impacto en almacenamiento, latencia y calidad; modelos disponibles: sentence-transformers (locales, gratuitos), OpenAI text-embedding-3 (API, multilingüe), modelos especializados de dominio; MTEB leaderboard: cómo leer y comparar modelos para tareas de retrieval; soporte multilingüe: modelos multilingüe vs combinación de modelos monolingüe; evaluación offline: cómo comparar dos modelos sobre el mismo corpus antes de decidir; latencia de inferencia en tiempo real vs offline

  4. Chunking y preprocesamiento de documentos El problema del chunk size: demasiado pequeño (pérdida de contexto), demasiado grande (embeddings imprecisos); métodos de chunking: por caracteres/tokens con tamaño fijo, por separador semántico (párrafo, sección), recursivo; parámetro overlap: qué es, para qué sirve, cómo calibrarlo; estrategias por tipo de contenido: documentos estructurados (HTML, Markdown, PDF con secciones) vs texto libre; metadatos de trazabilidad por chunk: fuente, número de página, sección; herramientas: LangChain TextSplitters, LlamaIndex NodeParsers

  5. Evaluación de la calidad del retrieval Conjunto de evaluación: cómo construirlo, qué tamaño mínimo es razonable, cómo anotarlo; métricas: precision@k, recall@k y MRR — definición, cálculo y cuándo usar cada una; interpretación de resultados: precision alta + recall bajo → vocabulary gap; recall alto + precision baja → mucho ruido; herramientas: RAGAS para evaluación de RAG, evaluación manual con inspección de los top-k; diagnóstico: cómo identificar si el problema está en el chunking, el embedding o el índice

  6. Pipeline RAG integrador Arquitectura completa de un pipeline RAG: carga de documentos → chunking → embeddings → indexación → consulta → recuperación → construcción del prompt → generación; uso del mismo modelo de embedding en indexación y consulta; construcción del prompt con contexto: posición del contexto, instrucciones al LLM para usar solo el contexto; problemas frecuentes: LLM ignora el contexto (solución: instrucción explícita en el prompt de sistema), chunks irrelevantes (solución: revisar el modelo de embedding y el chunking); evaluación del pipeline completo con RAGAS

  • Python 3.9+ con pip: chromadb, sentence-transformers, rank-bm25, ragas, numpy, scikit-learn
  • Editor de código (VS Code recomendado) con extensión Jupyter
  • Cuenta en Hugging Face para descargar modelos de sentence-transformers (gratuita)
  • Opcional: cuenta en OpenAI o Cohere si se quieren comparar modelos de API en los ejercicios
  • Terminal: bash, zsh o PowerShell

→ BDV01 — Fundamentos de Bases de Datos Vectoriales (Iniciación, 8h)

  • Explicar qué es un embedding y cómo representa información como vector numérico de dimensión fija
  • Distinguir entre bases de datos relacionales y vectoriales y seleccionar cuándo usar cada una
  • Calcular similitud coseno y distancia euclidiana entre vectores con Python y NumPy
  • Realizar las operaciones básicas sobre un índice vectorial (upsert, query, delete) con ChromaDB
  • Explicar el papel de la BD vectorial en un pipeline RAG y construir un prototipo básico de búsqueda semántica