Lokale semantische Suche für KI-Gespräche mit fastembed und LanceDB

Ein Entwickler hat ein lokales semantisches Suchsystem für KI-Konversationsverläufe implementiert, das 368K Nachrichten ohne Cloud-Abhängigkeiten oder API-Schlüssel verarbeitet. Das Projekt verwendet fastembed mit dem BAAI/bge-small-en-v1.5-Modell für CPU-basierte Embeddings und LanceDB als Vektorspeicher, der als einzelnes Verzeichnis ohne Serverprozess arbeitet.
Technischer Stack
- Embeddings: fastembed mit BAAI/bge-small-en-v1.5-Modell (384 Dimensionen)
- Vektorspeicher: LanceDB - einzelnes Verzeichnis, kein Serverprozess, anhangsfreundlich
- Erfassung: Bezieht Daten aus JSONL-Session-Transkripten (Claude Code, beliebiger Chat-Export)
- Embedding-Leistung: ~500 Dokumente/Sekunde auf M4-CPU
Wichtige Implementierungsdetails
Der Entwickler hat während der 4-monatigen Iteration mehrere praktische Erkenntnisse gewonnen:
- Selektives Embedding: Frühere Versionen haben jede Nachricht eingebettet, was das Signal-Rausch-Verhältnis verringerte. Die aktuelle Implementierung bettet nur Benutzernachrichten und substanzielle Assistentennachrichten ein (überspringt Antworten wie "sicher, hier ist der Code"), wodurch die Vektoranzahl um 60% reduziert wird und die Suchqualität verbessert wird.
- Chunking-Strategie: Der Wechsel von festen Chunk-Größen zu Konversationswechsel-Chunks hat einen enormen Unterschied in der Abrufrelevanz gemacht. Die Modellauswahl (getestet wurden nomic-embed-text, bge-large, all-MiniLM) zeigte im Vergleich zum Chunking-Ansatz nur marginale Unterschiede.
- LanceDB-Vorteile: Der Entwickler fand LanceDB "dumm unterschätzt für persönliche Maßstäbe" - kein Server, kein Docker, nur ein Verzeichnis mit sofortigem Anhängen neuer Vektoren, das eine überkomplizierte pgvector-Einrichtung ersetzt.
- Re-Embedding-Workflow: Das bge-small-en-v1.5-Modell mit 384 Dimensionen ist schnell genug, um stündlich als Cron-Job neu eingebettet zu werden. Eine vollständige Neuindizierung von 117K Vektoren dauert auf M2-Hardware etwa 4 Minuten.
Leistungsmetriken
- Gesamte erfasste Nachrichten: 407K
- Indizierte Vektoren: 87K
- Suchlatenz (p50): 12ms über 117K Vektoren
- Vollständige Neuindizierungszeit: ~4 Minuten (M2)
- Speicher: ~180MB auf der Festplatte
- Benötigte API-Schlüssel: 0
Das Projekt ist unter der MIT-Lizenz quelloffen und verfügbar unter github.com/mordechaipotash/brain-mcp. Die Installation erfolgt über pipx install brain-mcp && brain-mcp setup.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude-Code-Überprüfungsengpass und Browser-Automatisierungs-Plugin-Lösung
Ein Entwickler berichtet, dass die Überprüfung immer noch der langsamste Teil bei der Nutzung von Claude Code ist und manuelle Tests von Funktionen erfordert. Sie fanden ein Browser-Automatisierungs-Plugin, das es dem Agenten ermöglicht, echte Produktabläufe zu überprüfen, bevor Aufgaben als abgeschlossen markiert werden.

Codex Chrome-Erweiterung fügt Hintergrund-Browserautomatisierung über Tabs hinzu
Codex neue Chrome-Erweiterung unter macOS/Windows ermöglicht parallele Browser-Task-Ausführung in Hintergrund-Tabs, ohne den Browser zu übernehmen – für Debugging-Abläufe, Dashboards, Recherchen und CRM-Updates.

BrightBean Studio: Open-Source-Plattform für Social-Media-Management, entwickelt mit KI-Agenten
BrightBean Studio ist eine Open-Source, selbst hostbare Social-Media-Management-Plattform, die über 10 Plattformen mit direkten First-Party-API-Integrationen unterstützt. Sie wurde in 3 Wochen mit Claude und Codex entwickelt.

TasteBud-Gedächtnis: Reversible Agentenerinnerung durch hyperdimensionale Berechnung
Ein 600-zeiliges Node.js-Tool nutzt hyperdimensionale Berechnung, um eine reversible Gedächtnisschicht für KI-Agenten zu schaffen. Es unterstützt verlustfreie Dekodierung, Drifterkennung und Benachrichtigungen über unbekannte Projekte.