HACK A BOSS
FormaciónEvaluacionesPerfil
Volver
  • En directo

Arquitecturas RAG avanzadas y producción

6h de clase en directo·HACK A BOSS·Español

Skills que aprenderás

  • Arquitecturas RAG

Convocatorias

Necesitas un plan activo

Para acceder a los cursos en directo necesitas un plan activo. Estamos trabajando para que los planes estén disponibles pronto — ¡mantente atento!

No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.

Descripción

Objetivos

Temario

Requisitos técnicos

Conocimientos previos

Detalles de la convocatoria

Recursos

No hay recursos disponibles todavía para esta convocatoria

Curso avanzado para desarrolladores que ya construyen pipelines RAG funcionales y quieren llevarlos a entornos de producción con criterio de diseño, evaluación rigurosa y optimización de rendimiento y coste. Cubre el diseño de arquitecturas RAG completas justificando cada componente según los requisitos del caso de uso (idioma, latencia, privacidad, escala), la implementación de pipelines de indexación y recuperación con decisiones explícitas, las estrategias avanzadas de chunking semántico y jerárquico y reranking con cross-encoders, la evaluación end-to-end con métricas RAGAS (faithfulness, context precision, answer relevance), y las técnicas de optimización en producción (caching semántico, compresión de embeddings, reducción del contexto). Al finalizar, el participante será capaz de diseñar, evaluar y optimizar sistemas RAG de nivel productivo con criterios cuantitativos.

Al finalizar el curso, el participante será capaz de:

  • Diseñar arquitecturas RAG completas integrando modelos de embedding, bases de datos vectoriales y LLMs, justificando cada elección según los requisitos del caso de uso
  • Diseñar e implementar pipelines de indexación y recuperación semántica justificando las decisiones según el caso de uso
  • Seleccionar y justificar la estrategia de chunking y reranking más adecuada en función de la naturaleza del corpus
  • Evaluar y monitorizar sistemas RAG utilizando métricas específicas de precisión, latencia y calidad de generación
  • Optimizar el rendimiento y costes de arquitecturas RAG en producción mediante técnicas de caching, compresión y ajuste de prompts
  1. Diseño de arquitecturas RAG Selección del modelo de embedding: criterios por dominio, idioma, latencia y privacidad; selección del vector store: FAISS vs. Chroma vs. Qdrant vs. Pinecone según escala y requisitos; elección del LLM para generación: coste, límite de contexto y faithfulness; trade-offs de arquitectura: retrieval denso vs. híbrido, online vs. offline; requisitos de privacidad y procesamiento local con modelos open source
  2. Pipelines avanzados de indexación y recuperación Preprocesado de corpus: limpieza, normalización y extracción de metadatos; chunking semántico y jerárquico: parent-child chunks y late chunking; filtrado por metadatos en la recuperación; construcción del prompt con contexto: formatos de contexto y gestión del límite de tokens; recuperación híbrida: búsqueda densa + BM25 con RRF (Reciprocal Rank Fusion)
  3. Reranking y mejora de la recuperación Qué es el reranking y cuándo añade valor; cross-encoders vs. bi-encoders: diferencias de precisión y coste; modelos de reranking: Cohere Rerank, BGE-Reranker, ColBERT; pipeline retrieve-then-rerank: top-k amplio → reranking → top-k reducido; impacto en latencia y coste
  4. Evaluación end-to-end con RAGAS Métricas de recuperación: context precision y context recall; métricas de generación: faithfulness y answer relevance; cómo construir el dataset de evaluación con preguntas, respuestas ground-truth y contextos de referencia; automatización de la evaluación con la librería ragas; interpretación de resultados para priorizar mejoras
  5. Optimización en producción Caching semántico: almacenar respuestas a consultas frecuentes y recuperarlas por similitud; compresión de embeddings: quantización int8 y product quantization (PQ); reducción del contexto: reranking + top-k ajustado y summarización de fragmentos; ajuste de prompts para reducir tokens de entrada; monitorización de latencia por componente y estimación de coste por consulta
  • Python 3.10+ con entorno virtual activo
  • Paquetes: ragas, langchain, chromadb, sentence-transformers, cohere (para reranking), faiss-cpu
  • API key de un proveedor de LLM (OpenAI, Anthropic u otro compatible) y opcionalmente de Cohere para los ejercicios de reranking
  • Jupyter Notebook o VS Code con extensión Python

→ RAG02 — Construcción de pipelines RAG (Intermedio, 6h)

  • Construir un pipeline RAG funcional conectando modelo de embedding, vector store y LLM
  • Aplicar estrategias de chunking y comparar la calidad de los fragmentos
  • Indexar documentos en Chroma o FAISS y ejecutar búsquedas de similitud semántica
  • Medir la calidad de recuperación con precision@k y recall