Teste do Pipeline RAG Mostra que o Custo por Token Não é a Métrica Correta para Seleção de Modelos

Um desenvolvedor realizou uma comparação em nível de produção de três modelos de IA usando pipelines RAG idênticos para responder a uma consulta complexa de cliente sobre conformidade SOC 2. O teste utilizou Claude Haiku 4.5, Amazon Nova Pro e Amazon Nova Lite com a mesma configuração: dois armazenamentos vetoriais (documentação do produto e documentação de marketing/concorrência), 13 Registros de Decisão de Arquitetura como contexto de base, aproximadamente 49K tokens de entrada de contexto recuperado por consulta, prompts de sistema idênticos e a mesma estrutura de chamada API Bedrock com apenas o ID do modelo alterado.
Configuração do Teste e Resultados
A consulta foi: "Um cliente perguntou sobre conformidade SOC 2 — como devo responder?" Todos os modelos receberam o mesmo contexto RAG contendo um manual completo com e-mails prontos para copiar e colar, tratadores de objeções, posicionamento competitivo, respostas de conformidade específicas por framework e salvaguardas sobre o que não dizer.
Resultados:
- Nova Lite: 49.067 tokens de entrada, 244 tokens de saída, 5,5s de tempo de resposta, ~US$ 0,003 de custo
- Nova Pro: 49.067 tokens de entrada, 368 tokens de saída, 13,5s de tempo de resposta, ~US$ 0,040 de custo
- Haiku 4.5: 53.674 tokens de entrada, 1.534 tokens de saída, 15,6s de tempo de resposta, US$ 0,049 de custo
Comparação da Qualidade da Saída
Apesar do contexto idêntico, os modelos produziram respostas dramaticamente diferentes:
- Nova Lite: Gerou um e-mail genérico de quatro parágrafos que acertou o fato principal (implanta na sua conta, sem relatório SOC 2 separado) mas não incluiu tratamento de objeções, posicionamento competitivo ou nuances do contexto. Terminou com comentários meta sobre aderência aos ADRs.
- Nova Pro: Produziu sete tópicos numerados cobrindo aspectos técnicos como residência de dados, autenticação, controle de acesso, monitoramento, correções, gerenciamento de segredos e escopo de conformidade. Tecnicamente preciso, mas parecia documentação da AWS colada com comentários meta similares.
- Haiku 4.5: Entregou um manual completo com explicação em linguagem simples, e-mail pronto para copiar e colar, tratador de resistência com analogia de Terraform, respostas específicas por framework para HIPAA, PCI-DSS, SOX, FINRA, salvaguardas sobre "o que NÃO dizer", pontos de discussão prontos para CRM e posicionamento competitivo contra outras ferramentas.
Descoberta Principal
A diferença não estava nas informações disponíveis — todos os modelos tinham os mesmos ~49K tokens de entrada contendo o manual completo. A diferença estava no que cada modelo conseguia extrair e sintetizar. O Nova Lite extraiu um fato, o Nova Pro organizou fatos em uma lista, enquanto o Haiku sintetizou o contexto em um kit de ferramentas acionável com acompanhamentos antecipados.
A diferença de custo entre Nova Pro e Haiku foi de US$ 0,009 por consulta (menos de um centavo), mas a diferença na qualidade da saída foi substancial. O modelo mais barato por token produziu respostas que exigiriam 2-3 consultas de acompanhamento para igualar a saída de única passagem do Haiku, custando mais no final através do uso repetido do pipeline RAG.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Divisão do Uso Diário entre Claude e ChatGPT na Experiência de um Desenvolvedor
Um desenvolvedor compartilha sua divisão de fluxo de trabalho de cinco meses: Claude se destaca na escrita de textos longos, análise de documentos com contexto de 200k, comparações sutis e planejamento de viagens, enquanto o ChatGPT é preferido para respostas rápidas, geração de imagens com DALL-E, GPTs personalizados e trechos de Excel/código.

Paciente usa Claude AI para interpretar dados médicos e orientar tratamento de câncer cerebral.
Um paciente de 27 anos com linfoma de células B mediastinal primário com envolvimento do SNC usa a Claude AI diariamente para interpretar painéis de imuno-histoquímica, analisar resultados de exames PET-CT, avaliar dados de ensaios clínicos de CAR-T, compreender mecanismos de medicamentos e preparar perguntas para a equipe médica.

Executando o Claude Code como um Motor de Julgamento Puro em Todo o Ciclo de Vida do Desenvolvimento de Software
Um desenvolvedor compartilha sua arquitetura para usar o Claude Code como um motor de raciocínio dentro de um sistema multicamadas: Python lida com orquestração, Claude Code lida com escrita e revisão de código, com subagentes isolados e uma camada de wiki persistente.

Analista Financeiro Usa Claude Code para Construir Modelo DCF Sem Experiência em Programação
Um analista financeiro sem experiência em terminal usou o Claude Code para construir um modelo de fluxo de caixa descontado em 20-25 minutos em vez de 1-2 dias. A ferramenta leu arquivos financeiros e gerou um modelo Excel totalmente estruturado com fórmulas funcionais depois que o usuário digitou /dcf [nome da empresa].