Uma arquitetura de base de conhecimento de 4 níveis para melhorar a precisão de agentes de IA

Um desenvolvedor no r/openclaw detalhou uma arquitetura para uma base de conhecimento estruturada projetada para transformar agentes LLM genéricos em especialistas de domínio, fornecendo contexto específico sobre ferramentas, fluxos de trabalho e políticas.
O problema com as abordagens RAG comuns
A fonte identifica vários problemas com implementações RAG típicas: nenhuma classificação de consulta (cada pergunta passa pelo mesmo pipeline de recuperação), nenhuma hierarquização (documentos de governança tratados da mesma forma que posts de blog), nenhum orçamento (janela de contexto do agente lotada com trechos irrelevantes) e nenhuma autocorreção (documentos desatualizados/que permanecem quebrados para sempre).
Um pipeline de KB de 4 níveis
O sistema usa quatro níveis distintos:
- Nível de governança — Sempre carregado. Contém identidade do agente, políticas e regras como contexto não negociável.
- Nível do agente — Documentação por agente. Por exemplo, um agente de voz chamado Lucy recebe documentos de tratamento de chamadas, enquanto um agente chamado Binky (CRO) recebe documentos de conversão.
- Nível relevante — Recuperação dinâmica por consulta com correspondência de título/corpo, limitada a no máximo 5 documentos e um orçamento de 12 mil caracteres por documento.
- Nível wiki — Mais de 200 artigos de referência pesquisáveis via uma ponte de sistema de arquivos, cobrindo história da IA, definições de ferramentas, padrões de fluxo de trabalho e comparações de plataformas.
Classificação de consultas como arma secreta
Antes de qualquer recuperação acontecer, um classificador baseado em regex determina quanto contexto uma pergunta precisa:
- DIRETO — Para tarefas como "Resuma este texto" onde nenhuma KB é necessária.
- APENAS_HABILIDADE — Para tarefas como "Escreva um tweet para mim" onde a documentação de habilidade do agente é suficiente.
- CACHE_QUENTE — Para perguntas como "Quem lida com cobrança?" respondidas a partir de documentos de governança e do agente no cache de memória.
- RAG_COMPLETO — Para consultas complexas como "Compare preços do n8n vs Zapier" que exigem busca vetorial completa e ponte wiki.
Apenas essa classificação supostamente reduziu os custos de tokens em aproximadamente 40% porque a maioria das perguntas não precisa de RAG completo.
Estrutura e organização da KB
Cada um dos mais de 200 artigos segue um formato consistente: um título claro com escopo, conteúdo prático (tabelas, exemplos de código, estruturas de decisão), 2+ fontes citadas com URLs reais, 5 descrições de referência de imagem e 2 referências de vídeo.
O conteúdo está organizado em domínios específicos:
- Fundamentos de IA/ML (18 artigos) — história, transformadores, embeddings, agentes
- Ferramentas (16 artigos) — definições, segurança, taxonomia, tratamento de erros, auditoria
- Fluxos de trabalho (18 artigos) — tipos, plataformas, análise de custos, padrões HIL
- Geração de imagens (115 arquivos) — 16 provedores, comparações, estruturas de prompt
- Geração de vídeo (109 arquivos) — tratamentos, pipelines, guias de plataforma
- Suporte (60 artigos) — conteúdo do centro de ajuda ao cliente
Sistema de autocorreção
A arquitetura inclui um sistema de avaliação que pontua a saúde da KB em uma escala de 0-100 e aborda automaticamente problemas: embeddings ausentes disparam re-embedding, conteúdo desatualizado é sinalizado para atualização e referências quebradas são reparadas ou removidas. A pontuação de saúde supostamente melhorou de 71 para 89 após a primeira passagem de correção.
Resultados e principais lições
Antes da implementação da KB, os agentes alucinavam definições de ferramentas, inventavam preços e davam conselhos genéricos de fluxo de trabalho. Após a implementação, os agentes citam documentos específicos, fornecem comparações precisas de plataformas com preços reais e sabem quando dizer "Não tenho dados atuais sobre isso".
Principais lições da implementação:
- Classifique antes de recuperar — nem toda pergunta precisa de RAG.
- Orçamente sua janela de contexto — 60 mil caracteres no total, com um limite rígido por documento.
- Estrutura supera volume — 200 artigos bem organizados são melhores que 10.000 trechos aleatórios.
- Autocorreção não é opcional — bases de conhecimento se deterioram, então construa monitoramento desde o primeiro dia.
- Escreva para agentes, não para humanos — priorize tabelas em vez de parágrafos, estruturas de decisão em vez de prosa e exemplos concretos em vez de explicações abstratas.
📖 Read the full source: r/openclaw
👀 See Also

Lista selecionada de mais de 260 agentes e ferramentas de IA com foco em código aberto e auto-hospedagem
Um repositório abrangente do GitHub lista mais de 260 agentes e frameworks de IA, com ênfase em opções de código aberto, auto-hospedadas e locais, incluindo Ollama, OpenClaw e DeerFlow.

Usando o Claude Code para reviver projetos pessoais abandonados: um guia prático
Matthew Brunelle compartilha como usou o Claude Code (com Opus 4.6) para ressuscitar um projeto de ponte entre YouTube Music e OpenSubsonic API que havia parado, incluindo etapas de configuração, prompts e dicas de fluxo de trabalho.
AIttache: Um Servidor MCP Somente Leitura Que Não Pode Destruir Sua Produção
AIttache é um servidor MCP com mais de 25 conectores somente leitura (terminal, servidores, clima, Steam) que fisicamente não pode modificar nada — construído para dar às LLMs contexto de logs sem autonomia.

RunAnywhere RCLI: Pipeline de IA de Voz no Dispositivo para Apple Silicon
A RunAnywhere lançou o RCLI, um pipeline de IA de voz de código aberto para macOS que executa STT, LLM e TTS inteiramente em dispositivos com Apple Silicon. A ferramenta usa seu mecanismo de inferência proprietário MetalRT e afirma melhorias significativas de desempenho em relação às soluções existentes.