RRF Hybride Suche: KI-Gedächtnis mit PostgreSQL verbessern

Ein Open-Source-Gedächtnissystem für KI-Assistenten wurde entwickelt, das PostgreSQL mit pgvector in einer lokal-first, selbst-gehosteten Umgebung nutzt. Das System speichert Informationen, die KI-Assistenten sich über Sitzungen hinweg merken sollen, und macht sie durchsuchbar.

Warum reine Vektorsuche nicht ausreichte

Der Entwickler begann mit reiner Vektorsuche: Einbetten von Abfragen, Nutzung der Kosinusähnlichkeit und Rückgabe der Top-k-Ergebnisse. Während dies bei vagen Fragen funktionierte, scheiterte es konsequent bei exakten Übereinstimmungen. Beispielsweise würde die Suche nach "RRF merging" Abschnitte über "combining ranked lists" von vor Monaten zurückgeben, anstatt des Dokuments, das wörtlich "RRF merging" enthält.

Hybrid-Suchlösung

Die Lösung umfasste das Hinzufügen eines zweiten Sucharms: Volltextsuche mit PostgreSQLs tsvector und einem GIN-Index. Diese Schlüsselwortabgleichung fängt auf, was die Vektorsuche verpasst. Dies erzeugte jedoch zwei Ranglisten, die fusioniert werden mussten.

Reciprocal Rank Fusion (RRF)

Reciprocal Rank Fusion erwies sich als die Lösung zum Zusammenführen der beiden Ranglisten. Die Formel ist einfach: score = 1 / (k + rank), wobei k=60 (der Standardwert). Ergebnisse, die in beiden Listen erscheinen, erhalten beide Scores addiert. Dieser Ansatz erfordert keine Gewichtungsanpassung und keine Score-Normalisierung zwischen Kosinusähnlichkeit und ts_rank – er nutzt nur Rangpositionen.

Abfrageanreicherungstechnik

Vor der Suche leitet das System Abfragen durch den WordPiece-Tokenizer des Embedding-Modells, um Schlüsselbegriffe zu extrahieren (Multi-Subword-Tokens, die wahrscheinlich technische oder domänenspezifische Begriffe sind). Dies generiert bis zu 3 Abfragevarianten, bettet alle ein und sucht parallel. So werden Ergebnisse erfasst, die eine Formulierung verpassen könnte.

Technischer Stack

PostgreSQL 16 + pgvector (HNSW-Index für Vektoren, GIN-Index für Volltext)
all-MiniLM-L6-v2 für Embeddings (384 Dimensionen, läuft auf CPU)
Python mit async psycopg 3
3 Aufnahmeadapter: Markdown, Klartext und Claude-Konversations-JSON

Das gesamte System läuft lokal ohne API-Aufrufe für Embeddings und ohne Cloud-Abhängigkeiten. Der Code wurde kürzlich ausgeliefert, und der Entwickler hat einen detaillierten Blogbeitrag über den vollständigen Ansatz verfasst.

📖 Read the full source: r/LocalLLaMA

Hybride Suche mit RRF verbessert KI-Gedächtnissystem im Vergleich zu reiner Vektorsuche

Warum reine Vektorsuche nicht ausreichte

Hybrid-Suchlösung

Reciprocal Rank Fusion (RRF)

Abfrageanreicherungstechnik

Technischer Stack

👀 Siehe auch

Token Reducer: Ein Claude-Code-Plugin für intelligente Kontextkomprimierung

Überarbeitung: KI-Editor entwickelt mit agentenbasierten Codierungstools und Y.js CRDT

Claudigotchi: Physisches Tamagotchi-Gerät, das sich von Claude-Code-Aktivität ernährt

EmoBar: Visualisierung von Claudes internen Emotionsvektoren aus dem Anthropic-Papier