Pesquisa semântica local para conversas de IA com fastembed e LanceDB

✍️ OpenClawRadar📅 Publicado: March 20, 2026🔗 Source
Pesquisa semântica local para conversas de IA com fastembed e LanceDB
Ad

Um desenvolvedor implementou um sistema de busca semântica local para histórico de conversas de IA, processando 368 mil mensagens sem dependências de nuvem ou chaves de API. O projeto usa fastembed com o modelo BAAI/bge-small-en-v1.5 para embeddings baseados em CPU e LanceDB como armazenamento vetorial que opera como um único diretório sem processo de servidor.

Stack Técnica

  • Embeddings: fastembed com modelo BAAI/bge-small-en-v1.5 (384 dimensões)
  • Armazenamento vetorial: LanceDB - diretório único, sem processo de servidor, amigável para anexos
  • Ingestão: Coleta de transcrições de sessões JSONL (Claude Code, qualquer exportação de chat)
  • Desempenho de embedding: ~500 documentos/segundo em CPU M4

Detalhes Principais de Implementação

O desenvolvedor aprendeu várias lições práticas durante a iteração de 4 meses:

  • Embedding seletivo: Versões iniciais incorporavam todas as mensagens, o que reduzia a relação sinal-ruído. A implementação atual incorpora apenas mensagens de usuários e mensagens de assistentes com conteúdo substancial (ignorando respostas como "claro, aqui está esse código"), reduzindo a contagem de vetores em 60% enquanto melhora a qualidade da busca.
  • Estratégia de fragmentação: Mudar de fragmentos de tamanho fixo para fragmentos por turno de conversa fez uma diferença enorme na relevância da recuperação. A escolha do modelo (testados nomic-embed-text, bge-large, all-MiniLM) mostrou diferenças marginais comparadas à abordagem de fragmentação.
  • Vantagens do LanceDB: O desenvolvedor considerou o LanceDB "estupidamente subestimado para escala pessoal" - sem servidor, sem Docker, apenas um diretório com anexação instantânea de novos vetores, substituindo uma configuração pgvector superdimensionada.
  • Fluxo de trabalho de re-embedding: O modelo bge-small-en-v1.5 com 384 dimensões é rápido o suficiente para reincorporar a cada hora como um trabalho cron. Uma reindexação completa de 117 mil vetores leva aproximadamente 4 minutos em hardware M2.
Ad

Métricas de Desempenho

  • Total de mensagens ingeridas: 407 mil
  • Vetores indexados: 87 mil
  • Latência de busca (p50): 12ms em 117 mil vetores
  • Tempo de reindexação completa: ~4 minutos (M2)
  • Armazenamento: ~180MB em disco
  • Chaves de API necessárias: 0

O projeto é de código aberto sob licença MIT e está disponível em github.com/mordechaipotash/brain-mcp. A instalação é via pipx install brain-mcp && brain-mcp setup.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

MuninnDB adiciona Dream Engine para consolidação de memória de LLM com isolamento de cofre
Tools

MuninnDB adiciona Dream Engine para consolidação de memória de LLM com isolamento de cofre

MuninnDB, um banco de dados de memória cognitiva baseado em Go, agora inclui um Motor de Sonhos que realiza consolidação de memória dirigida por LLM entre sessões usando limiares de deduplicação e revisão semântica. O sistema apresenta níveis de confiança de cofre para isolamento de dados e roda localmente com Ollama.

OpenClawRadar
Custo Real de Ferramentas de IA para Codificação: 42 Horas de Sobrecarga a Cada 60 Dias — Análise Detalhada de um Dev Solo
Tools

Custo Real de Ferramentas de IA para Codificação: 42 Horas de Sobrecarga a Cada 60 Dias — Análise Detalhada de um Dev Solo

Um desenvolvedor solo monitorou cada dólar e minuto gasto com ferramentas de codificação de IA por 60 dias. Assinaturas (US$ 200/mês) foram o menor custo; 42 horas de sobrecarga devido a saídas ruins e troca de ferramentas foram o verdadeiro imposto. O ganho líquido de produtividade foi de 1,7 a 2x, não 10x. Surpresa: CodeRabbit, uma ferramenta de revisão de US$ 15/mês, teve o maior ROI.

OpenClawRadar
iai-mcp: Um daemon local para memória persistente do OpenClaw entre sessões
Tools

iai-mcp: Um daemon local para memória persistente do OpenClaw entre sessões

iai-mcp é um daemon open-source que captura todas as conversas do OpenClaw, armazena-as em três camadas de memória com embeddings neurais locais e criptografia AES-256, e fornece contexto relevante de volta em novas sessões — recall literal >99%, recuperação <100ms, custo de início de sessão <3k tokens.

OpenClawRadar
Revisão do Desempenho do Modelo OpenClaw: Codex 5.3 Lidera, Modelos GLM Decepcionam
Tools

Revisão do Desempenho do Modelo OpenClaw: Codex 5.3 Lidera, Modelos GLM Decepcionam

Um desenvolvedor testou vários modelos de IA com o OpenClaw, descobrindo que o Codex 5.3 tem o melhor desempenho com nota 9/10, enquanto o GLM 4.7 e o GLM 5 obtiveram 5/10 devido ao alto uso de tokens, respostas lentas e saída inconsistente.

OpenClawRadar