Avaliação de Chatbot RAG: Como uma Varredura de Modelo + Correções de Recuperação Reduziram Custos em 79% e Aumentaram a Qualidade em 19%

Um usuário do Reddit fez uma avaliação completa de um chatbot RAG de suporte ao cliente que estava rodando no ChromaDB com um limite de similaridade padrão de 0,7 (distância cosseno) e usando Gemini 3.1 Flash Lite Preview para geração. Eles descobriram que o modelo mais caro era o pior desempenho e que várias mudanças não óbvias realmente fizeram diferença.
Problemas de Recuperação se Passam por Problemas de LLM
O bot respondia "Não tenho acesso a informações específicas sobre os serviços da nossa empresa" quando usuários faziam perguntas casuais como "ei, o que vocês fazem?". O instinto era ajustar prompts ou trocar modelos, mas a causa raiz era a recuperação: o limite de similaridade no ChromaDB estava definido como 0,7 (distância cosseno, menor = mais similar, então na verdade rigoroso). Perguntas casuais não produziam embeddings próximos o suficiente de nenhum chunk, então nenhum documento era recuperado. A lição: registre qual contexto o LLM realmente recebeu antes de culpar a geração. Se a recuperação não retorna nada, nenhuma engenharia de prompt resolve.
Avaliadores Heurísticos São Piores Que Nenhum
Correspondência de palavras-chave e contagem de referências de fontes geravam números sem correlação com a satisfação do usuário. O autor mudou para um juiz LLM (Claude Haiku 4.5 via OpenRouter) avaliando relevância, precisão, utilidade e geral em uma escala de 0 a 10. Custo: alguns centavos por execução completa.
Desduplicar Chunks
Duas interações tinham três chunks de FAQ quase idênticos no contexto. Adicionar uma verificação de sobreposição de tokens >80% do mesmo arquivo de origem limpou o contexto, reduziu tokens e interrompeu uma alucinação de nomes de produtos em uma interação.
Compromisso com Fundamentação Mais Rigorosa
Adicionar uma regra de que o agente só afirma fatos dos documentos recuperados aumentou a precisão, mas reduziu a utilidade em interações com lacunas de conhecimento: o bot começou a dizer "os documentos não especificam isso, entre em contato com o suporte" em vez de adivinhar. O autor observa que esta é a decisão correta para um bot de suporte factual, mas deve ser tomada conscientemente.
Resultados da Varredura de Modelos
Executando o mesmo harness de avaliação em 5 modelos mostrou que Gemma 4 26B obteve 7,88 vs. o original Gemini 3.1 Flash Lite Preview com 7,33 — e custou 75% menos por sessão. Mistral Small 3.2 foi um segundo próximo. Nova Micro foi o mais barato, mas respostas curtas foram penalizadas por não serem acionáveis. No geral, a qualidade melhorou de 6,62 para 7,88 (+19%) e o custo caiu de $0,002420 para $0,000509 por sessão (−79%).
Toda a avaliação foi feita usando Neo AI Engineer, que construiu o harness de avaliação, lidou com execuções com checkpoint, tratou problemas de timeout e limite de contexto, e consolidou resultados. O autor revisou tudo manualmente.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Configuração de Multi-Agente OpenClaw Custo-Efetiva Usando Modelos de Assinatura
Um usuário do Reddit descreve como rotear todas as operações multiagente do OpenClaw por meio de assinaturas existentes do Anthropic Pro Max de US$ 200 e do ChatGPT OpenAI Codex de US$ 200, em vez de chamadas diretas à API, usando modelos mais baratos do Anthropic para agentes simples e modelos mais complexos para outros.

Correção para o Problema do Serviço de VM do Workspace do Claude Desktop no Windows 11 Home
Uma correção desenvolvida pela comunidade resolve o erro 'serviço de VM não está em execução' no recurso de workspace do Claude Desktop no Windows 11 Home, com comandos manuais do PowerShell e uma ferramenta automatizada disponível no GitHub.

Como a Memória do OpenCLAW Realmente Funciona: Corrigindo o 'Esquecimento' do Agente
Os agentes OpenCLAW não possuem memória persistente entre conversas - eles reconstroem o contexto a partir de arquivos como SOUL.md, USER.md e MEMORY.md a cada vez. Problemas comuns de 'esquecimento' surgem de sessões antigas, arquivos de memória desestruturados e armazenamento de informações importantes no histórico de chat em vez de arquivos permanentes.

Acesse o GPT-5.4 via assinatura Codex no OpenClaw
Uma postagem no Reddit detalha como configurar o OpenClaw para usar o GPT-5.4 por meio de uma assinatura do OpenAI Codex, modificando o arquivo de configuração openclaw.json e reiniciando o gateway.