Teste RAG: Custo por Token Não Define Melhor Modelo

Um desenvolvedor realizou uma comparação em nível de produção de três modelos de IA usando pipelines RAG idênticos para responder a uma consulta complexa de cliente sobre conformidade SOC 2. O teste utilizou Claude Haiku 4.5, Amazon Nova Pro e Amazon Nova Lite com a mesma configuração: dois armazenamentos vetoriais (documentação do produto e documentação de marketing/concorrência), 13 Registros de Decisão de Arquitetura como contexto de base, aproximadamente 49K tokens de entrada de contexto recuperado por consulta, prompts de sistema idênticos e a mesma estrutura de chamada API Bedrock com apenas o ID do modelo alterado.

Configuração do Teste e Resultados

A consulta foi: "Um cliente perguntou sobre conformidade SOC 2 — como devo responder?" Todos os modelos receberam o mesmo contexto RAG contendo um manual completo com e-mails prontos para copiar e colar, tratadores de objeções, posicionamento competitivo, respostas de conformidade específicas por framework e salvaguardas sobre o que não dizer.

Resultados:

Nova Lite: 49.067 tokens de entrada, 244 tokens de saída, 5,5s de tempo de resposta, ~US$ 0,003 de custo
Nova Pro: 49.067 tokens de entrada, 368 tokens de saída, 13,5s de tempo de resposta, ~US$ 0,040 de custo
Haiku 4.5: 53.674 tokens de entrada, 1.534 tokens de saída, 15,6s de tempo de resposta, US$ 0,049 de custo

Comparação da Qualidade da Saída

Apesar do contexto idêntico, os modelos produziram respostas dramaticamente diferentes:

Nova Lite: Gerou um e-mail genérico de quatro parágrafos que acertou o fato principal (implanta na sua conta, sem relatório SOC 2 separado) mas não incluiu tratamento de objeções, posicionamento competitivo ou nuances do contexto. Terminou com comentários meta sobre aderência aos ADRs.
Nova Pro: Produziu sete tópicos numerados cobrindo aspectos técnicos como residência de dados, autenticação, controle de acesso, monitoramento, correções, gerenciamento de segredos e escopo de conformidade. Tecnicamente preciso, mas parecia documentação da AWS colada com comentários meta similares.
Haiku 4.5: Entregou um manual completo com explicação em linguagem simples, e-mail pronto para copiar e colar, tratador de resistência com analogia de Terraform, respostas específicas por framework para HIPAA, PCI-DSS, SOX, FINRA, salvaguardas sobre "o que NÃO dizer", pontos de discussão prontos para CRM e posicionamento competitivo contra outras ferramentas.

Descoberta Principal

A diferença não estava nas informações disponíveis — todos os modelos tinham os mesmos ~49K tokens de entrada contendo o manual completo. A diferença estava no que cada modelo conseguia extrair e sintetizar. O Nova Lite extraiu um fato, o Nova Pro organizou fatos em uma lista, enquanto o Haiku sintetizou o contexto em um kit de ferramentas acionável com acompanhamentos antecipados.

A diferença de custo entre Nova Pro e Haiku foi de US$ 0,009 por consulta (menos de um centavo), mas a diferença na qualidade da saída foi substancial. O modelo mais barato por token produziu respostas que exigiriam 2-3 consultas de acompanhamento para igualar a saída de única passagem do Haiku, custando mais no final através do uso repetido do pipeline RAG.

📖 Leia a fonte completa: r/ClaudeAI

Teste do Pipeline RAG Mostra que o Custo por Token Não é a Métrica Correta para Seleção de Modelos

Configuração do Teste e Resultados

Comparação da Qualidade da Saída

Descoberta Principal

👀 See Also

Plataforma de Desenvolvimento de IA para Homelab: OpenCode + GitOps para Atualizações de Contêineres Mais Seguras

Wyrmbarrow: Um Mundo Persistente de D&D para Claude via Ferramentas MCP

Usando Opus 4.6 e GPT 5.4 para revisar por pares um design de pilha de memória para OpenClaw

Configurações OpenClaw Que Duram: Menos Complexidade, Mais Confiabilidade