Skills que aprenderás
Convocatorias
No hay convocatorias abiertas ahora mismo, pero no te pierdas la oportunidad: guarda este curso y te avisamos en cuanto se abra una convocatoria.
Recursos
No hay recursos disponibles todavía para esta convocatoria
Curso de iniciación a las bases de datos vectoriales orientado a perfiles técnicos que trabajan con sistemas de IA, búsqueda semántica o pipelines de datos y quieren entender cómo funciona este tipo de almacenamiento, cuándo usarlo y cómo integrarlo en una aplicación real. El curso cubre qué es un embedding y cómo transforma información no estructurada en vectores numéricos; la diferencia entre bases de datos relacionales y vectoriales según el tipo de consulta que resuelven bien; las medidas de similitud coseno y distancia euclidiana con cálculo práctico en Python; la estructura interna de una base de datos vectorial —índice, namespace y metadatos— y las operaciones básicas de upsert, query y delete; el papel de las bases de datos vectoriales en pipelines RAG; y la construcción de un prototipo funcional de búsqueda semántica que integra generación de embeddings, indexación y consulta. Al finalizar, el participante será capaz de construir un sistema básico de búsqueda semántica sobre un conjunto de datos propio y explicar cómo encaja en un pipeline RAG.
Al finalizar el curso, el participante será capaz de:
Embeddings y bases de datos vectoriales Qué es un embedding: transformación de información no estructurada (texto, imágenes) en vectores numéricos de dimensión fija; por qué la cercanía en el espacio vectorial refleja similitud semántica; modelos de embedding más habituales y sus diferencias; diferencia entre base de datos relacional (consultas exactas sobre campos estructurados) y vectorial (consultas por similitud sobre vectores densos); casos de uso que justifican el uso de una BD vectorial: búsqueda semántica, sistemas de recomendación, detección de duplicados, RAG
Similitud vectorial y cálculo con Python Similitud coseno: mide el ángulo entre vectores independientemente de su magnitud, rango de -1 a 1, más adecuada cuando la dirección importa más que la longitud; distancia euclidiana: mide la distancia geométrica entre dos puntos en el espacio, sensible a la magnitud del vector; criterios de selección según el problema; cálculo con NumPy: producto escalar, norma y fórmula manual; cálculo con scikit-learn: cosine_similarity y euclidean_distances; interpretación del resultado numérico sobre ejemplos reales
Estructura y operaciones de una base de datos vectorial Componentes de una BD vectorial: índice vectorial (estructura de datos para búsqueda eficiente de k vecinos más cercanos), namespace (espacio lógico de partición dentro del índice) y metadatos (atributos arbitrarios asociados al vector para filtrado); operación upsert: inserción o actualización de un vector con su id y metadatos; operación query: búsqueda de los k vectores más similares a un vector de consulta con filtrado opcional por metadatos; operación delete: eliminación de vectores por id; recorrido práctico con ChromaDB local o Pinecone
Bases de datos vectoriales en RAG y prototipo integrador Arquitectura de un pipeline RAG: etapa de indexación offline (generación de embeddings + upsert en la BD vectorial) y etapa de consulta online (generación del embedding de la pregunta + query + inyección del contexto en el prompt del LLM); papel de la BD vectorial como capa de recuperación; construcción paso a paso de un prototipo de búsqueda semántica en Python: carga del corpus, generación de embeddings con un modelo de embedding, indexación en ChromaDB, consulta por similitud y presentación de los resultados más relevantes
numpy, scikit-learn, chromadbsentence-transformersEl curso está orientado a perfiles técnicos con familiaridad básica con Python: definición de funciones, instalación de paquetes con pip y lectura de estructuras de datos básicas (listas, diccionarios). No es necesario haber trabajado con bases de datos vectoriales ni con modelos de embedding; todos los conceptos se introducen desde cero. Se recomienda haber explorado previamente un LLM conversacional y tener una noción básica de qué es una base de datos relacional, aunque no es requisito estricto.