Búsqueda semántica local: fastembed + LanceDB en 12ms

Un desarrollador ha implementado un sistema de búsqueda semántica local para el historial de conversaciones de IA, procesando 368K mensajes sin dependencias en la nube ni claves API. El proyecto utiliza fastembed con el modelo BAAI/bge-small-en-v1.5 para incrustaciones basadas en CPU y LanceDB como almacén vectorial que opera como un solo directorio sin proceso de servidor.

Pila Técnica

Incrustaciones: fastembed con modelo BAAI/bge-small-en-v1.5 (384 dimensiones)
Almacén vectorial: LanceDB - directorio único, sin proceso de servidor, compatible con anexiones
Ingesta: Extrae de transcripciones de sesiones JSONL (Claude Code, cualquier exportación de chat)
Rendimiento de incrustación: ~500 documentos/seg en CPU M4

Detalles Clave de Implementación

El desarrollador aprendió varias lecciones prácticas durante la iteración de 4 meses:

Incrustación selectiva: Las versiones iniciales incrustaban cada mensaje, lo que reducía la relación señal-ruido. La implementación actual solo incrusta mensajes de usuario y mensajes del asistente con sustancia (omitiendo respuestas como "claro, aquí está ese código"), reduciendo el conteo de vectores en un 60% mientras mejora la calidad de búsqueda.
Estrategia de fragmentación: Cambiar de fragmentos de tamaño fijo a fragmentos por turno de conversación marcó una gran diferencia en la relevancia de recuperación. La elección del modelo (probó nomic-embed-text, bge-large, all-MiniLM) mostró diferencias marginales en comparación con el enfoque de fragmentación.
Ventajas de LanceDB: El desarrollador encontró que LanceDB está "estúpidamente infravalorado para escala personal" - sin servidor, sin Docker, solo un directorio con anexión instantánea de nuevos vectores, reemplazando una configuración pgvector sobreingenierada.
Flujo de trabajo de reincrustación: El modelo bge-small-en-v1.5 con 384 dimensiones es lo suficientemente rápido para reincrustar cada hora como trabajo cron. Una reindexación completa de 117K vectores toma aproximadamente 4 minutos en hardware M2.

Métricas de Rendimiento

Mensajes totales ingeridos: 407K
Vectores indexados: 87K
Latencia de búsqueda (p50): 12ms a través de 117K vectores
Tiempo de reindexación completa: ~4 minutos (M2)
Almacenamiento: ~180MB en disco
Claves API necesarias: 0

El proyecto es de código abierto bajo licencia MIT y está disponible en github.com/mordechaipotash/brain-mcp. La instalación es mediante pipx install brain-mcp && brain-mcp setup.

📖 Leer la fuente completa: r/LocalLLaMA

Búsqueda semántica local para conversaciones de IA con fastembed y LanceDB

Pila Técnica

Detalles Clave de Implementación

Métricas de Rendimiento

👀 Ver también

Engramx v3.4: MCP Server + Grafo de Conocimiento SQLite Reduce el Uso de Tokens de Claude Code en un 89%

Agentes & A.I.mpires: Juego de Estrategia Donde los Agentes de IA Juegan y los Humanos Espectan

Habilidad de Lanzamiento de Productos Claude AI: Guías Estructuradas para Lanzamientos de Productos de IA

DeepMind DiscoRL Regla de Actualización de Metaaprendizaje Migrada de JAX a PyTorch