llmLibrarian: Motor RAG Local com Integração MCP para IA

O Que É Isso

llmLibrarian é um mecanismo RAG (Geração Aumentada por Recuperação) local que expõe capacidades de recuperação através do Model Context Protocol (MCP). Ele permite indexar pastas em silos (coleções ChromaDB) e depois consultá-las de qualquer cliente MCP—incluindo o Claude—para obter respostas fundamentadas e citadas.

Recursos Principais e Arquitetura

A ferramenta indexa pastas em silos, que são coleções ChromaDB. Quando você quer respostas diretas em vez de trechos brutos, o Ollama cuida da camada de síntese. Tudo roda localmente na sua máquina.

O desenvolvedor destaca a capacidade multi-silo como particularmente poderosa: combinar silos permite que padrões surjam entre domínios que seriam difíceis de capturar manualmente. Por exemplo, uma pasta de diário se torna um parceiro de pensamento que lembra o que você escreveu, e uma base de código se torna um agente que conhece seus arquivos reais.

Ferramentas MCP Expostas

retrieve — busca vetorial híbrida RRF que retorna trechos brutos com pontuações de confiança para o Claude raciocinar
retrieve_bulk — consultas multi-ângulo em uma chamada, útil ao agregar entre tipos de documentos
ask — resposta sintetizada pelo Ollama diretamente do contexto recuperado (padrão é llama3.1:8b, mas você pode trocar por qualquer modelo que tenha baixado)
list_silos, inspect_silo, trigger_reindex — ferramentas de gerenciamento de índice

Stack Técnico

ChromaDB para armazenamento vetorial
Ollama para síntese de modelos
sentence-transformers (all-mpnet-base-v2, acelerado por MPS) para embeddings
fastmcp para a camada MCP

O desenvolvedor menciona que a marcação de metadados multi-silo no ChromaDB levou várias iterações para ficar certa e está aberto a discutir a arquitetura.

Esse tipo de ferramenta é útil para desenvolvedores que querem construir agentes de IA que possam referenciar e raciocinar sobre seus arquivos locais sem enviar dados para serviços externos.

📖 Read the full source: r/LocalLLaMA