Hybride Suche mit RRF verbessert KI-Gedächtnissystem im Vergleich zu reiner Vektorsuche

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Hybride Suche mit RRF verbessert KI-Gedächtnissystem im Vergleich zu reiner Vektorsuche
Ad

Ein Open-Source-Gedächtnissystem für KI-Assistenten wurde entwickelt, das PostgreSQL mit pgvector in einer lokal-first, selbst-gehosteten Umgebung nutzt. Das System speichert Informationen, die KI-Assistenten sich über Sitzungen hinweg merken sollen, und macht sie durchsuchbar.

Warum reine Vektorsuche nicht ausreichte

Der Entwickler begann mit reiner Vektorsuche: Einbetten von Abfragen, Nutzung der Kosinusähnlichkeit und Rückgabe der Top-k-Ergebnisse. Während dies bei vagen Fragen funktionierte, scheiterte es konsequent bei exakten Übereinstimmungen. Beispielsweise würde die Suche nach "RRF merging" Abschnitte über "combining ranked lists" von vor Monaten zurückgeben, anstatt des Dokuments, das wörtlich "RRF merging" enthält.

Hybrid-Suchlösung

Die Lösung umfasste das Hinzufügen eines zweiten Sucharms: Volltextsuche mit PostgreSQLs tsvector und einem GIN-Index. Diese Schlüsselwortabgleichung fängt auf, was die Vektorsuche verpasst. Dies erzeugte jedoch zwei Ranglisten, die fusioniert werden mussten.

Reciprocal Rank Fusion (RRF)

Reciprocal Rank Fusion erwies sich als die Lösung zum Zusammenführen der beiden Ranglisten. Die Formel ist einfach: score = 1 / (k + rank), wobei k=60 (der Standardwert). Ergebnisse, die in beiden Listen erscheinen, erhalten beide Scores addiert. Dieser Ansatz erfordert keine Gewichtungsanpassung und keine Score-Normalisierung zwischen Kosinusähnlichkeit und ts_rank – er nutzt nur Rangpositionen.

Ad

Abfrageanreicherungstechnik

Vor der Suche leitet das System Abfragen durch den WordPiece-Tokenizer des Embedding-Modells, um Schlüsselbegriffe zu extrahieren (Multi-Subword-Tokens, die wahrscheinlich technische oder domänenspezifische Begriffe sind). Dies generiert bis zu 3 Abfragevarianten, bettet alle ein und sucht parallel. So werden Ergebnisse erfasst, die eine Formulierung verpassen könnte.

Technischer Stack

  • PostgreSQL 16 + pgvector (HNSW-Index für Vektoren, GIN-Index für Volltext)
  • all-MiniLM-L6-v2 für Embeddings (384 Dimensionen, läuft auf CPU)
  • Python mit async psycopg 3
  • 3 Aufnahmeadapter: Markdown, Klartext und Claude-Konversations-JSON

Das gesamte System läuft lokal ohne API-Aufrufe für Embeddings und ohne Cloud-Abhängigkeiten. Der Code wurde kürzlich ausgeliefert, und der Entwickler hat einen detaillierten Blogbeitrag über den vollständigen Ansatz verfasst.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

200+ App-Design-Spezifikationen in Markdown – In Claude oder Cursor ziehen für exakte UI-Klone
Werkzeuge

200+ App-Design-Spezifikationen in Markdown – In Claude oder Cursor ziehen für exakte UI-Klone

Eine kuratierte Sammlung von über 200 beliebten Apps als strukturierte Markdown-Designspezifikationen mit exakten Hex-Codes, Schriftgrößen, Abständen, jedem Bildschirmzustand und Navigationsgraphen. In Claude, Cursor oder jeden anderen KI-Agenten einfügen, um SwiftUI-, Jetpack-Compose- oder Expo-UI-Klone zu generieren, ohne Farben oder Abstände raten zu müssen.

OpenClawRadar
CipherClaw: Nutzung einer Sicherheits-Persona zur Code-Überprüfung mit Claude
Werkzeuge

CipherClaw: Nutzung einer Sicherheits-Persona zur Code-Überprüfung mit Claude

Ein Entwickler nutzte CipherClaw, eine CLAUDE.md-Persona namens TALON, um Claude Code wie einen Sicherheitsarchitekten denken zu lassen. Der Einsatz auf einer Next.js-App deckte 17 Sicherheitsprobleme auf, darunter kritische Schwachstellen wie nicht authentifizierte Endpunkte, die Admin-Daten zurückgeben, und hartkodierte Authentifizierungstoken.

OpenClawRadar
Claude Code CLI Toolkit: Vier Tools für Code-Reviews, Projektbriefings und automatische Journaling-Git-Hooks
Werkzeuge

Claude Code CLI Toolkit: Vier Tools für Code-Reviews, Projektbriefings und automatische Journaling-Git-Hooks

Ein Entwickler hat vier CLI-Tools veröffentlicht, die auf Claude Codes '-p'-Modus (Druckmodus) basieren und Code-Reviews, Projektbeschreibungsgenerierung, automatische Git-Hooks für Entwicklerprotokolle und Claude-Sitzungsstatus behandeln. Die Tools nutzen die bestehende Claude-Code-Authentifizierung und sind als Open Source verfügbar.

OpenClawRadar
Token Enhancer reduziert den Tokenverbrauch von Webseiten für KI-Agenten.
Werkzeuge

Token Enhancer reduziert den Tokenverbrauch von Webseiten für KI-Agenten.

Ein Entwickler stellte fest, dass rohes HTML von Webabrufen übermäßig viele Tokens im KI-Agenten-Kontext verbraucht, wobei Yahoo-Finance-Seiten 704.000 Tokens verwendeten. Durch den Einsatz von Token Enhancer als MCP-Server konnte dies auf 2.600 Tokens reduziert werden.

OpenClawRadar