Indexer 368K conversations IA avec fastembed et LanceDB

Un développeur a mis en œuvre un système de recherche sémantique local pour l'historique des conversations IA, traitant 368 000 messages sans dépendances cloud ni clés API. Le projet utilise fastembed avec le modèle BAAI/bge-small-en-v1.5 pour les embeddings basés sur CPU et LanceDB comme base de données vectorielle qui fonctionne comme un simple répertoire sans processus serveur.

Stack technique

Embeddings : fastembed avec le modèle BAAI/bge-small-en-v1.5 (384 dimensions)
Base de données vectorielle : LanceDB - répertoire unique, pas de processus serveur, compatible avec l'ajout
Ingestion : Récupère depuis des transcriptions de session JSONL (Claude Code, toute exportation de chat)
Performance des embeddings : ~500 documents/sec sur CPU M4

Détails clés de l'implémentation

Le développeur a tiré plusieurs leçons pratiques pendant les 4 mois d'itération :

Embedding sélectif : Les premières versions embarquaient chaque message, ce qui réduisait le rapport signal/bruit. L'implémentation actuelle n'embarque que les messages utilisateur et les messages assistant avec du contenu substantiel (en ignorant les réponses comme "bien sûr, voici ce code"), réduisant le nombre de vecteurs de 60 % tout en améliorant la qualité de recherche.
Stratégie de segmentation : Passer de segments de taille fixe à des segments par tour de conversation a fait une énorme différence dans la pertinence de la récupération. Le choix du modèle (essayé nomic-embed-text, bge-large, all-MiniLM) a montré des différences marginales par rapport à l'approche de segmentation.
Avantages de LanceDB : Le développeur a trouvé LanceDB "stupidement sous-estimé pour l'échelle personnelle" - pas de serveur, pas de Docker, juste un répertoire avec ajout instantané de nouveaux vecteurs, remplaçant une configuration pgvector surdimensionnée.
Workflow de ré-embedding : Le modèle bge-small-en-v1.5 à 384 dimensions est suffisamment rapide pour ré-embarquer toutes les heures via une tâche cron. Une ré-indexation complète de 117 000 vecteurs prend environ 4 minutes sur du matériel M2.

Métriques de performance

Messages ingérés au total : 407 000
Vecteurs indexés : 87 000
Latence de recherche (p50) : 12 ms sur 117 000 vecteurs
Temps de ré-indexation complet : ~4 minutes (M2)
Stockage : ~180 Mo sur disque
Clés API nécessaires : 0

Le projet est open source sous licence MIT et disponible sur github.com/mordechaipotash/brain-mcp. L'installation se fait via pipx install brain-mcp && brain-mcp setup.

📖 Read the full source: r/LocalLLaMA

Recherche sémantique locale pour conversations IA avec fastembed et LanceDB

Stack technique

Détails clés de l'implémentation

Métriques de performance

👀 See Also

Réduisez de 90 % les coûts des sessions de codage IA avec l'indexation de code basée sur des graphes

Nouvel outil injecte des instructions dans le code Claude en fonction de l'utilisation contextuelle

Créer un assistant vocal IA local avec SwiftUI et CSM-1B sur Apple Silicon

Analyse Codeflash : 118 bogues de performance détectés dans deux PR rédigés avec Claude Code