HACK A BOSS
FormaciónEvaluacionesPerfil
Volver
  • En directo

Construcción de pipelines RAG

6h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Arquitecturas RAG

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Curso práctico de nivel intermedio orientado a desarrolladores que ya comprenden los fundamentos conceptuales de RAG y quieren implementar su primer pipeline funcional. Cubre el mecanismo de búsqueda semántica con embeddings y similitud vectorial, la construcción de un pipeline RAG completo con modelo de embedding, vector store y LLM, las estrategias de chunking más habituales y cómo comparar su calidad, la indexación de documentos en Chroma o FAISS con búsquedas de similitud semántica, la medición de la calidad de recuperación con métricas de precision y recall, y el diagnóstico de los fallos más frecuentes en pipelines RAG reales. Al finalizar, el participante será capaz de construir, evaluar y depurar un pipeline RAG funcional en Python.

Al finalizar el curso, el participante será capaz de:

  • Explicar el mecanismo de búsqueda semántica mediante embeddings y similitud vectorial
  • Construir un pipeline RAG funcional conectando un modelo de embedding, un vector store y un LLM
  • Aplicar estrategias de chunking básicas a un corpus y comparar la calidad de los fragmentos resultantes
  • Indexar documentos en una base de datos vectorial y ejecutar búsquedas de similitud semántica
  • Medir la calidad de recuperación de un pipeline RAG usando métricas básicas de precisión y exhaustividad
  • Diagnosticar los fallos más frecuentes en un pipeline RAG e identificar su causa probable
  1. Búsqueda semántica con embeddings Cómo los modelos de embedding convierten texto en vectores de alta dimensión; similitud coseno y producto escalar: cálculo e interpretación; modelos de embedding populares: text-embedding-ada-002, E5, sentence-transformers; impacto de la elección del modelo en la calidad de recuperación; diferencia entre embeddings de consulta y de documento
  2. Construcción de un pipeline RAG con Python Fase de indexación: cargar documentos, fragmentar, embedir y almacenar en Chroma o FAISS; fase de consulta: embedir la consulta, buscar los k fragmentos más similares, construir el prompt con contexto y llamar al LLM; primer pipeline end-to-end: de un PDF a una respuesta fundamentada en el documento
  3. Estrategias de chunking y su impacto Chunking por tamaño fijo con y sin solapamiento; chunking por oración y por párrafo; trade-off entre granularidad semántica y completitud de información; cómo evaluar visualmente la calidad de los fragmentos antes de indexar; parámetros chunk_size y chunk_overlap en la práctica
  4. Indexación y búsqueda en vector stores Crear un índice en Chroma (persistente) y en FAISS (en memoria); añadir documentos con metadatos; búsqueda por similitud con similarity_search y similarity_search_with_score; filtrado por metadatos; ajuste del parámetro k según el caso de uso
  5. Evaluación y diagnóstico del pipeline Precision@k y recall sobre un conjunto de consultas con relevancia ground-truth; cómo construir un small benchmark de evaluación; fallos frecuentes: retrieval vacío, contexto insuficiente, respuesta que ignora el contexto, alucinaciones persistentes; técnica de depuración: inspeccionar fragmentos recuperados antes de pasar al LLM
  • Python 3.10+ con entorno virtual (venv o conda)
  • Paquetes: langchain, openai (u otro SDK de LLM), chromadb, faiss-cpu, sentence-transformers
  • API key de un proveedor de LLM (OpenAI, Anthropic u otro compatible)
  • Jupyter Notebook o VS Code con extensión Python

→ RAG01 — Fundamentos de arquitecturas RAG (Iniciación, 4h)

  • Identificar las limitaciones de los LLMs sin sistema de recuperación y el problema que resuelve RAG
  • Explicar qué es un embedding y cómo la similitud vectorial permite recuperar texto semánticamente similar
  • Describir las dos fases de un pipeline RAG y la función de cada componente