RRF Búsqueda Híbrida: Cómo Supera a la Vectorial Pura en Memoria IA

Se ha desarrollado un sistema de memoria de código abierto para asistentes de IA, utilizando PostgreSQL con pgvector en una configuración local primero y autoalojada. El sistema almacena información para que los asistentes de IA recuerden entre sesiones y la hace buscable.

Por qué la búsqueda vectorial pura no fue suficiente

El desarrollador comenzó con búsqueda vectorial pura: incrustando consultas, usando similitud coseno y devolviendo los resultados top-k. Si bien esto funcionaba para preguntas vagas, fallaba consistentemente en coincidencias exactas. Por ejemplo, buscar "RRF merging" devolvería fragmentos sobre "combinar listas clasificadas" de hace meses en lugar del documento que literalmente dice "RRF merging".

Solución de búsqueda híbrida

La solución implicó añadir un segundo brazo de búsqueda: búsqueda de texto completo usando tsvector de PostgreSQL con un índice GIN. Esta coincidencia por palabras clave captura lo que la búsqueda vectorial pierde. Sin embargo, esto creó dos listas clasificadas que necesitaban fusionarse.

Fusión de Rango Recíproco (RRF)

La Fusión de Rango Recíproco demostró ser la respuesta para fusionar las dos listas clasificadas. La fórmula es simple: puntuación = 1 / (k + rango), donde k=60 (el valor estándar). Los resultados que aparecen en ambas listas obtienen ambas puntuaciones sumadas. Este enfoque no requiere ajuste de pesos ni normalización de puntuaciones entre similitud coseno y ts_rank—solo utiliza posiciones de rango.

Técnica de enriquecimiento de consultas

Antes de buscar, el sistema ejecuta las consultas a través del tokenizador WordPiece del modelo de incrustación para extraer términos clave (tokens de múltiples subpalabras que probablemente sean términos técnicos o del dominio). Esto genera hasta 3 variaciones de consulta, incrusta todas ellas y busca en paralelo. Esto captura resultados que una formulación podría perder.

Pila técnica

PostgreSQL 16 + pgvector (índice HNSW para vectores, índice GIN para texto completo)
all-MiniLM-L6-v2 para incrustaciones (384 dimensiones, se ejecuta en CPU)
Python con psycopg 3 asíncrono
3 adaptadores de ingesta: markdown, texto plano y JSON de conversación de Claude

Todo el sistema se ejecuta localmente sin llamadas API para incrustaciones y sin dependencias en la nube. El código se lanzó recientemente, y el desarrollador ha escrito una publicación de blog detallada sobre el enfoque completo.

📖 Read the full source: r/LocalLLaMA

La búsqueda híbrida con RRF mejora el sistema de memoria de IA sobre la búsqueda vectorial pura.

Por qué la búsqueda vectorial pura no fue suficiente

Solución de búsqueda híbrida

Fusión de Rango Recíproco (RRF)

Técnica de enriquecimiento de consultas

Pila técnica

👀 Ver también

Servidor MCP de TextExpander permite que Claude AI acceda y gestione tu biblioteca de fragmentos

Claude Skill de código abierto estructura el conocimiento de crecimiento SaaS B2B para un razonamiento de IA consistente

DocMason: Base de Conocimiento de Agente Local para Archivos de Oficina Complejos

Dos meses con Spec-Kit de GitHub y Claude Code: Lo que funciona, lo que no