Boost Academy
LearningAssessmentsProfile
Back
  • Live

Arquitecturas RAG avanzadas y producción

6h of live classes·HACK A BOSS·Spanish

Skills you will learn

  • Arquitecturas RAG

Schedules

You need an active plan

To access live courses you need an active plan. We're working on making plans available soon — stay tuned.

There are no open calls right now, but don't miss out: save this course and we'll notify you as soon as a call opens.

Description

Learning objectives

Syllabus

Technical requirements

Prerequisites

Schedule details

Resources

No resources are available yet for this schedule

Curso avanzado para desarrolladores que ya construyen pipelines RAG funcionales y quieren llevarlos a entornos de producción con criterio de diseño, evaluación rigurosa y optimización de rendimiento y coste. Cubre el diseño de arquitecturas RAG completas justificando cada componente según los requisitos del caso de uso (idioma, latencia, privacidad, escala), la implementación de pipelines de indexación y recuperación con decisiones explícitas, las estrategias avanzadas de chunking semántico y jerárquico y reranking con cross-encoders, la evaluación end-to-end con métricas RAGAS (faithfulness, context precision, answer relevance), y las técnicas de optimización en producción (caching semántico, compresión de embeddings, reducción del contexto). Al finalizar, el participante será capaz de diseñar, evaluar y optimizar sistemas RAG de nivel productivo con criterios cuantitativos.

Al finalizar el curso, el participante será capaz de:

  • Diseñar arquitecturas RAG completas integrando modelos de embedding, bases de datos vectoriales y LLMs, justificando cada elección según los requisitos del caso de uso
  • Diseñar e implementar pipelines de indexación y recuperación semántica justificando las decisiones según el caso de uso
  • Seleccionar y justificar la estrategia de chunking y reranking más adecuada en función de la naturaleza del corpus
  • Evaluar y monitorizar sistemas RAG utilizando métricas específicas de precisión, latencia y calidad de generación
  • Optimizar el rendimiento y costes de arquitecturas RAG en producción mediante técnicas de caching, compresión y ajuste de prompts
  1. Diseño de arquitecturas RAG Selección del modelo de embedding: criterios por dominio, idioma, latencia y privacidad; selección del vector store: FAISS vs. Chroma vs. Qdrant vs. Pinecone según escala y requisitos; elección del LLM para generación: coste, límite de contexto y faithfulness; trade-offs de arquitectura: retrieval denso vs. híbrido, online vs. offline; requisitos de privacidad y procesamiento local con modelos open source
  2. Pipelines avanzados de indexación y recuperación Preprocesado de corpus: limpieza, normalización y extracción de metadatos; chunking semántico y jerárquico: parent-child chunks y late chunking; filtrado por metadatos en la recuperación; construcción del prompt con contexto: formatos de contexto y gestión del límite de tokens; recuperación híbrida: búsqueda densa + BM25 con RRF (Reciprocal Rank Fusion)
  3. Reranking y mejora de la recuperación Qué es el reranking y cuándo añade valor; cross-encoders vs. bi-encoders: diferencias de precisión y coste; modelos de reranking: Cohere Rerank, BGE-Reranker, ColBERT; pipeline retrieve-then-rerank: top-k amplio → reranking → top-k reducido; impacto en latencia y coste
  4. Evaluación end-to-end con RAGAS Métricas de recuperación: context precision y context recall; métricas de generación: faithfulness y answer relevance; cómo construir el dataset de evaluación con preguntas, respuestas ground-truth y contextos de referencia; automatización de la evaluación con la librería ragas; interpretación de resultados para priorizar mejoras
  5. Optimización en producción Caching semántico: almacenar respuestas a consultas frecuentes y recuperarlas por similitud; compresión de embeddings: quantización int8 y product quantization (PQ); reducción del contexto: reranking + top-k ajustado y summarización de fragmentos; ajuste de prompts para reducir tokens de entrada; monitorización de latencia por componente y estimación de coste por consulta
  • Python 3.10+ con entorno virtual activo
  • Paquetes: ragas, langchain, chromadb, sentence-transformers, cohere (para reranking), faiss-cpu
  • API key de un proveedor de LLM (OpenAI, Anthropic u otro compatible) y opcionalmente de Cohere para los ejercicios de reranking
  • Jupyter Notebook o VS Code con extensión Python

→ RAG02 — Construcción de pipelines RAG (Intermedio, 6h)

  • Construir un pipeline RAG funcional conectando modelo de embedding, vector store y LLM
  • Aplicar estrategias de chunking y comparar la calidad de los fragmentos
  • Indexar documentos en Chroma o FAISS y ejecutar búsquedas de similitud semántica
  • Medir la calidad de recuperación con precision@k y recall