Boost Academy
LearningAssessmentsProfile
Back
  • Live

Construcción de pipelines RAG

6h of live classes·HACK A BOSS·Spanish

Skills you will learn

  • Arquitecturas RAG

Schedules

You need an active plan

To access live courses you need an active plan. We're working on making plans available soon — stay tuned.

There are no open calls right now, but don't miss out: save this course and we'll notify you as soon as a call opens.

Description

Learning objectives

Syllabus

Technical requirements

Prerequisites

Schedule details

Resources

No resources are available yet for this schedule

Curso práctico de nivel intermedio orientado a desarrolladores que ya comprenden los fundamentos conceptuales de RAG y quieren implementar su primer pipeline funcional. Cubre el mecanismo de búsqueda semántica con embeddings y similitud vectorial, la construcción de un pipeline RAG completo con modelo de embedding, vector store y LLM, las estrategias de chunking más habituales y cómo comparar su calidad, la indexación de documentos en Chroma o FAISS con búsquedas de similitud semántica, la medición de la calidad de recuperación con métricas de precision y recall, y el diagnóstico de los fallos más frecuentes en pipelines RAG reales. Al finalizar, el participante será capaz de construir, evaluar y depurar un pipeline RAG funcional en Python.

Al finalizar el curso, el participante será capaz de:

  • Explicar el mecanismo de búsqueda semántica mediante embeddings y similitud vectorial
  • Construir un pipeline RAG funcional conectando un modelo de embedding, un vector store y un LLM
  • Aplicar estrategias de chunking básicas a un corpus y comparar la calidad de los fragmentos resultantes
  • Indexar documentos en una base de datos vectorial y ejecutar búsquedas de similitud semántica
  • Medir la calidad de recuperación de un pipeline RAG usando métricas básicas de precisión y exhaustividad
  • Diagnosticar los fallos más frecuentes en un pipeline RAG e identificar su causa probable
  1. Búsqueda semántica con embeddings Cómo los modelos de embedding convierten texto en vectores de alta dimensión; similitud coseno y producto escalar: cálculo e interpretación; modelos de embedding populares: text-embedding-ada-002, E5, sentence-transformers; impacto de la elección del modelo en la calidad de recuperación; diferencia entre embeddings de consulta y de documento
  2. Construcción de un pipeline RAG con Python Fase de indexación: cargar documentos, fragmentar, embedir y almacenar en Chroma o FAISS; fase de consulta: embedir la consulta, buscar los k fragmentos más similares, construir el prompt con contexto y llamar al LLM; primer pipeline end-to-end: de un PDF a una respuesta fundamentada en el documento
  3. Estrategias de chunking y su impacto Chunking por tamaño fijo con y sin solapamiento; chunking por oración y por párrafo; trade-off entre granularidad semántica y completitud de información; cómo evaluar visualmente la calidad de los fragmentos antes de indexar; parámetros chunk_size y chunk_overlap en la práctica
  4. Indexación y búsqueda en vector stores Crear un índice en Chroma (persistente) y en FAISS (en memoria); añadir documentos con metadatos; búsqueda por similitud con similarity_search y similarity_search_with_score; filtrado por metadatos; ajuste del parámetro k según el caso de uso
  5. Evaluación y diagnóstico del pipeline Precision@k y recall sobre un conjunto de consultas con relevancia ground-truth; cómo construir un small benchmark de evaluación; fallos frecuentes: retrieval vacío, contexto insuficiente, respuesta que ignora el contexto, alucinaciones persistentes; técnica de depuración: inspeccionar fragmentos recuperados antes de pasar al LLM
  • Python 3.10+ con entorno virtual (venv o conda)
  • Paquetes: langchain, openai (u otro SDK de LLM), chromadb, faiss-cpu, sentence-transformers
  • API key de un proveedor de LLM (OpenAI, Anthropic u otro compatible)
  • Jupyter Notebook o VS Code con extensión Python

→ RAG01 — Fundamentos de arquitecturas RAG (Iniciación, 4h)

  • Identificar las limitaciones de los LLMs sin sistema de recuperación y el problema que resuelve RAG
  • Explicar qué es un embedding y cómo la similitud vectorial permite recuperar texto semánticamente similar
  • Describir las dos fases de un pipeline RAG y la función de cada componente