Teste do Pipeline RAG Mostra que o Custo por Token Não é a Métrica Correta para Seleção de Modelos

✍️ OpenClawRadar📅 Publicado: March 2, 2026🔗 Source
Teste do Pipeline RAG Mostra que o Custo por Token Não é a Métrica Correta para Seleção de Modelos
Ad

Um desenvolvedor realizou uma comparação em nível de produção de três modelos de IA usando pipelines RAG idênticos para responder a uma consulta complexa de cliente sobre conformidade SOC 2. O teste utilizou Claude Haiku 4.5, Amazon Nova Pro e Amazon Nova Lite com a mesma configuração: dois armazenamentos vetoriais (documentação do produto e documentação de marketing/concorrência), 13 Registros de Decisão de Arquitetura como contexto de base, aproximadamente 49K tokens de entrada de contexto recuperado por consulta, prompts de sistema idênticos e a mesma estrutura de chamada API Bedrock com apenas o ID do modelo alterado.

Configuração do Teste e Resultados

A consulta foi: "Um cliente perguntou sobre conformidade SOC 2 — como devo responder?" Todos os modelos receberam o mesmo contexto RAG contendo um manual completo com e-mails prontos para copiar e colar, tratadores de objeções, posicionamento competitivo, respostas de conformidade específicas por framework e salvaguardas sobre o que não dizer.

Resultados:

  • Nova Lite: 49.067 tokens de entrada, 244 tokens de saída, 5,5s de tempo de resposta, ~US$ 0,003 de custo
  • Nova Pro: 49.067 tokens de entrada, 368 tokens de saída, 13,5s de tempo de resposta, ~US$ 0,040 de custo
  • Haiku 4.5: 53.674 tokens de entrada, 1.534 tokens de saída, 15,6s de tempo de resposta, US$ 0,049 de custo
Ad

Comparação da Qualidade da Saída

Apesar do contexto idêntico, os modelos produziram respostas dramaticamente diferentes:

  • Nova Lite: Gerou um e-mail genérico de quatro parágrafos que acertou o fato principal (implanta na sua conta, sem relatório SOC 2 separado) mas não incluiu tratamento de objeções, posicionamento competitivo ou nuances do contexto. Terminou com comentários meta sobre aderência aos ADRs.
  • Nova Pro: Produziu sete tópicos numerados cobrindo aspectos técnicos como residência de dados, autenticação, controle de acesso, monitoramento, correções, gerenciamento de segredos e escopo de conformidade. Tecnicamente preciso, mas parecia documentação da AWS colada com comentários meta similares.
  • Haiku 4.5: Entregou um manual completo com explicação em linguagem simples, e-mail pronto para copiar e colar, tratador de resistência com analogia de Terraform, respostas específicas por framework para HIPAA, PCI-DSS, SOX, FINRA, salvaguardas sobre "o que NÃO dizer", pontos de discussão prontos para CRM e posicionamento competitivo contra outras ferramentas.

Descoberta Principal

A diferença não estava nas informações disponíveis — todos os modelos tinham os mesmos ~49K tokens de entrada contendo o manual completo. A diferença estava no que cada modelo conseguia extrair e sintetizar. O Nova Lite extraiu um fato, o Nova Pro organizou fatos em uma lista, enquanto o Haiku sintetizou o contexto em um kit de ferramentas acionável com acompanhamentos antecipados.

A diferença de custo entre Nova Pro e Haiku foi de US$ 0,009 por consulta (menos de um centavo), mas a diferença na qualidade da saída foi substancial. O modelo mais barato por token produziu respostas que exigiriam 2-3 consultas de acompanhamento para igualar a saída de única passagem do Haiku, custando mais no final através do uso repetido do pipeline RAG.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Divisão do Uso Diário entre Claude e ChatGPT na Experiência de um Desenvolvedor
Use Cases

Divisão do Uso Diário entre Claude e ChatGPT na Experiência de um Desenvolvedor

Um desenvolvedor compartilha sua divisão de fluxo de trabalho de cinco meses: Claude se destaca na escrita de textos longos, análise de documentos com contexto de 200k, comparações sutis e planejamento de viagens, enquanto o ChatGPT é preferido para respostas rápidas, geração de imagens com DALL-E, GPTs personalizados e trechos de Excel/código.

OpenClawRadar
Paciente usa Claude AI para interpretar dados médicos e orientar tratamento de câncer cerebral.
Use Cases

Paciente usa Claude AI para interpretar dados médicos e orientar tratamento de câncer cerebral.

Um paciente de 27 anos com linfoma de células B mediastinal primário com envolvimento do SNC usa a Claude AI diariamente para interpretar painéis de imuno-histoquímica, analisar resultados de exames PET-CT, avaliar dados de ensaios clínicos de CAR-T, compreender mecanismos de medicamentos e preparar perguntas para a equipe médica.

OpenClawRadar
Executando o Claude Code como um Motor de Julgamento Puro em Todo o Ciclo de Vida do Desenvolvimento de Software
Use Cases

Executando o Claude Code como um Motor de Julgamento Puro em Todo o Ciclo de Vida do Desenvolvimento de Software

Um desenvolvedor compartilha sua arquitetura para usar o Claude Code como um motor de raciocínio dentro de um sistema multicamadas: Python lida com orquestração, Claude Code lida com escrita e revisão de código, com subagentes isolados e uma camada de wiki persistente.

OpenClawRadar
Analista Financeiro Usa Claude Code para Construir Modelo DCF Sem Experiência em Programação
Use Cases

Analista Financeiro Usa Claude Code para Construir Modelo DCF Sem Experiência em Programação

Um analista financeiro sem experiência em terminal usou o Claude Code para construir um modelo de fluxo de caixa descontado em 20-25 minutos em vez de 1-2 dias. A ferramenta leu arquivos financeiros e gerou um modelo Excel totalmente estruturado com fórmulas funcionais depois que o usuário digitou /dcf [nome da empresa].

OpenClawRadar