Recherche sémantique locale pour conversations IA avec fastembed et LanceDB

✍️ OpenClawRadar📅 Publié: March 20, 2026🔗 Source
Recherche sémantique locale pour conversations IA avec fastembed et LanceDB
Ad

Un développeur a mis en œuvre un système de recherche sémantique local pour l'historique des conversations IA, traitant 368 000 messages sans dépendances cloud ni clés API. Le projet utilise fastembed avec le modèle BAAI/bge-small-en-v1.5 pour les embeddings basés sur CPU et LanceDB comme base de données vectorielle qui fonctionne comme un simple répertoire sans processus serveur.

Stack technique

  • Embeddings : fastembed avec le modèle BAAI/bge-small-en-v1.5 (384 dimensions)
  • Base de données vectorielle : LanceDB - répertoire unique, pas de processus serveur, compatible avec l'ajout
  • Ingestion : Récupère depuis des transcriptions de session JSONL (Claude Code, toute exportation de chat)
  • Performance des embeddings : ~500 documents/sec sur CPU M4
Ad

Détails clés de l'implémentation

Le développeur a tiré plusieurs leçons pratiques pendant les 4 mois d'itération :

  • Embedding sélectif : Les premières versions embarquaient chaque message, ce qui réduisait le rapport signal/bruit. L'implémentation actuelle n'embarque que les messages utilisateur et les messages assistant avec du contenu substantiel (en ignorant les réponses comme "bien sûr, voici ce code"), réduisant le nombre de vecteurs de 60 % tout en améliorant la qualité de recherche.
  • Stratégie de segmentation : Passer de segments de taille fixe à des segments par tour de conversation a fait une énorme différence dans la pertinence de la récupération. Le choix du modèle (essayé nomic-embed-text, bge-large, all-MiniLM) a montré des différences marginales par rapport à l'approche de segmentation.
  • Avantages de LanceDB : Le développeur a trouvé LanceDB "stupidement sous-estimé pour l'échelle personnelle" - pas de serveur, pas de Docker, juste un répertoire avec ajout instantané de nouveaux vecteurs, remplaçant une configuration pgvector surdimensionnée.
  • Workflow de ré-embedding : Le modèle bge-small-en-v1.5 à 384 dimensions est suffisamment rapide pour ré-embarquer toutes les heures via une tâche cron. Une ré-indexation complète de 117 000 vecteurs prend environ 4 minutes sur du matériel M2.

Métriques de performance

  • Messages ingérés au total : 407 000
  • Vecteurs indexés : 87 000
  • Latence de recherche (p50) : 12 ms sur 117 000 vecteurs
  • Temps de ré-indexation complet : ~4 minutes (M2)
  • Stockage : ~180 Mo sur disque
  • Clés API nécessaires : 0

Le projet est open source sous licence MIT et disponible sur github.com/mordechaipotash/brain-mcp. L'installation se fait via pipx install brain-mcp && brain-mcp setup.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Le Registre AbsolutelySkilled Ajoute 156 Compétences Prêtes pour la Production pour Claude Code
Tools

Le Registre AbsolutelySkilled Ajoute 156 Compétences Prêtes pour la Production pour Claude Code

Un développeur a créé AbsolutelySkilled, un registre de 156 modules de compétences structurées pour Claude Code qui persistent entre les sessions. Chaque compétence inclut des conditions de déclenchement, des fichiers de référence, des cas de test et des anti-modèles dans des fichiers SKILL.md.

OpenClawRadar
Fewshell : Un copilote SSH auto-hébergé qui refuse d'exécuter des commandes sans approbation humaine
Tools

Fewshell : Un copilote SSH auto-hébergé qui refuse d'exécuter des commandes sans approbation humaine

Fewshell est un copilote SSH mobile+desktop avec approbation humaine obligatoire pour chaque commande – aucun paramètre pour activer l'approbation automatique. Construit par un ancien SDE d'Amazon travaillant sur la recherche en sécurité de l'IA.

OpenClawRadar
Conseil : Un Cadre de Dialogue Structuré pour Claude
Tools

Conseil : Un Cadre de Dialogue Structuré pour Claude

Conseil — Un Creuset est un cadre de dialogue structuré conçu pour fonctionner dans une seule fenêtre de contexte Claude. Il utilise un cadrage de personnage pour créer quatre modes d'engagement distincts : interrogation rigoureuse, action générative, expérience vécue et intuition non formée.

OpenClawRadar
Compétence open source d'auto-réparation pour agents IA qui détecte et corrige automatiquement les défaillances
Tools

Compétence open source d'auto-réparation pour agents IA qui détecte et corrige automatiquement les défaillances

Une nouvelle compétence open-source permet aux agents IA de détecter automatiquement les défaillances, d'en diagnostiquer les causes profondes et de mettre en œuvre des correctifs. Elle comprend un scanner de défaillances pour les tâches cron, les sous-agents et les journaux de déploiement, ainsi qu'une base de données qui apprend des correctifs précédents.

OpenClawRadar