Varredura de Modelo + Correções Reduzem Custos de Chatbot RAG em 79%

Um usuário do Reddit fez uma avaliação completa de um chatbot RAG de suporte ao cliente que estava rodando no ChromaDB com um limite de similaridade padrão de 0,7 (distância cosseno) e usando Gemini 3.1 Flash Lite Preview para geração. Eles descobriram que o modelo mais caro era o pior desempenho e que várias mudanças não óbvias realmente fizeram diferença.

Problemas de Recuperação se Passam por Problemas de LLM

O bot respondia "Não tenho acesso a informações específicas sobre os serviços da nossa empresa" quando usuários faziam perguntas casuais como "ei, o que vocês fazem?". O instinto era ajustar prompts ou trocar modelos, mas a causa raiz era a recuperação: o limite de similaridade no ChromaDB estava definido como 0,7 (distância cosseno, menor = mais similar, então na verdade rigoroso). Perguntas casuais não produziam embeddings próximos o suficiente de nenhum chunk, então nenhum documento era recuperado. A lição: registre qual contexto o LLM realmente recebeu antes de culpar a geração. Se a recuperação não retorna nada, nenhuma engenharia de prompt resolve.

Avaliadores Heurísticos São Piores Que Nenhum

Correspondência de palavras-chave e contagem de referências de fontes geravam números sem correlação com a satisfação do usuário. O autor mudou para um juiz LLM (Claude Haiku 4.5 via OpenRouter) avaliando relevância, precisão, utilidade e geral em uma escala de 0 a 10. Custo: alguns centavos por execução completa.

Desduplicar Chunks

Duas interações tinham três chunks de FAQ quase idênticos no contexto. Adicionar uma verificação de sobreposição de tokens >80% do mesmo arquivo de origem limpou o contexto, reduziu tokens e interrompeu uma alucinação de nomes de produtos em uma interação.

Compromisso com Fundamentação Mais Rigorosa

Adicionar uma regra de que o agente só afirma fatos dos documentos recuperados aumentou a precisão, mas reduziu a utilidade em interações com lacunas de conhecimento: o bot começou a dizer "os documentos não especificam isso, entre em contato com o suporte" em vez de adivinhar. O autor observa que esta é a decisão correta para um bot de suporte factual, mas deve ser tomada conscientemente.

Resultados da Varredura de Modelos

Executando o mesmo harness de avaliação em 5 modelos mostrou que Gemma 4 26B obteve 7,88 vs. o original Gemini 3.1 Flash Lite Preview com 7,33 — e custou 75% menos por sessão. Mistral Small 3.2 foi um segundo próximo. Nova Micro foi o mais barato, mas respostas curtas foram penalizadas por não serem acionáveis. No geral, a qualidade melhorou de 6,62 para 7,88 (+19%) e o custo caiu de $0,002420 para $0,000509 por sessão (−79%).

Toda a avaliação foi feita usando Neo AI Engineer, que construiu o harness de avaliação, lidou com execuções com checkpoint, tratou problemas de timeout e limite de contexto, e consolidou resultados. O autor revisou tudo manualmente.

📖 Leia a fonte completa: r/LocalLLaMA