La búsqueda híbrida con RRF mejora el sistema de memoria de IA sobre la búsqueda vectorial pura.

Se ha desarrollado un sistema de memoria de código abierto para asistentes de IA, utilizando PostgreSQL con pgvector en una configuración local primero y autoalojada. El sistema almacena información para que los asistentes de IA recuerden entre sesiones y la hace buscable.
Por qué la búsqueda vectorial pura no fue suficiente
El desarrollador comenzó con búsqueda vectorial pura: incrustando consultas, usando similitud coseno y devolviendo los resultados top-k. Si bien esto funcionaba para preguntas vagas, fallaba consistentemente en coincidencias exactas. Por ejemplo, buscar "RRF merging" devolvería fragmentos sobre "combinar listas clasificadas" de hace meses en lugar del documento que literalmente dice "RRF merging".
Solución de búsqueda híbrida
La solución implicó añadir un segundo brazo de búsqueda: búsqueda de texto completo usando tsvector de PostgreSQL con un índice GIN. Esta coincidencia por palabras clave captura lo que la búsqueda vectorial pierde. Sin embargo, esto creó dos listas clasificadas que necesitaban fusionarse.
Fusión de Rango Recíproco (RRF)
La Fusión de Rango Recíproco demostró ser la respuesta para fusionar las dos listas clasificadas. La fórmula es simple: puntuación = 1 / (k + rango), donde k=60 (el valor estándar). Los resultados que aparecen en ambas listas obtienen ambas puntuaciones sumadas. Este enfoque no requiere ajuste de pesos ni normalización de puntuaciones entre similitud coseno y ts_rank—solo utiliza posiciones de rango.
Técnica de enriquecimiento de consultas
Antes de buscar, el sistema ejecuta las consultas a través del tokenizador WordPiece del modelo de incrustación para extraer términos clave (tokens de múltiples subpalabras que probablemente sean términos técnicos o del dominio). Esto genera hasta 3 variaciones de consulta, incrusta todas ellas y busca en paralelo. Esto captura resultados que una formulación podría perder.
Pila técnica
- PostgreSQL 16 + pgvector (índice HNSW para vectores, índice GIN para texto completo)
- all-MiniLM-L6-v2 para incrustaciones (384 dimensiones, se ejecuta en CPU)
- Python con psycopg 3 asíncrono
- 3 adaptadores de ingesta: markdown, texto plano y JSON de conversación de Claude
Todo el sistema se ejecuta localmente sin llamadas API para incrustaciones y sin dependencias en la nube. El código se lanzó recientemente, y el desarrollador ha escrito una publicación de blog detallada sobre el enfoque completo.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Validación del patrón de habilidades de autoevolución: resultados del experimento de 5 rondas.
Un desarrollador probó el patrón de diseño de Habilidad Auto-Evolutiva para Claude Code con un experimento de 5 rondas en una base de datos MySQL con 29 tablas y 590MB de datos de gestión de edificios inteligentes. Los resultados clave incluyen una tasa de rechazo de Cinco Puertas del 63,6%, convergencia incremental y una precisión del 100% sin que sobreviviera ningún conocimiento incorrecto.

Habilidades de Chrome: Guarda y reutiliza prompts de IA como herramientas de un clic
La función Habilidades de Chrome de Google permite a los usuarios guardar instrucciones de IA como flujos de trabajo reutilizables que se ejecutan con un solo clic en cualquier página web. Se puede acceder a las Habilidades escribiendo la barra diagonal (/) o haciendo clic en el signo más (+) en Gemini en Chrome.

WebClaw: Servidor MCP de Código Abierto para Extracción Web con Claude
WebClaw es un servidor MCP de código abierto construido con Claude Code que proporciona herramientas de extracción web para Claude Desktop y Claude Code, resolviendo las limitaciones del web_fetch incorporado de Claude mediante huellas digitales TLS y optimización de contenido.

Complemento de Canal de Matriz de Código Claude Construido en Rust con Soporte E2EE
Un desarrollador creó un complemento de canal Matrix para Claude Code en Rust, agregando soporte para texto, archivos, imágenes con descifrado E2EE, hilos de respuesta, reacciones y comandos de bot. El binario de 14MB tiene licencia MIT y funciona con cualquier servidor Matrix.