Reduza Custos da API Sonnet em 80% com Claude Haiku

Um desenvolvedor compartilhou um padrão de economia de custos para processar grandes volumes de texto não estruturado através dos modelos Claude AI. A abordagem usa o Claude Haiku como um filtro para eliminar conteúdo irrelevante antes de enviar apenas dados valiosos para o modelo mais caro, Claude Sonnet.

O Problema e a Solução

O desenvolvedor construiu uma plataforma chamada PainSignal (painsignal.net) que coleta milhares de comentários reais de trabalhadores e proprietários de empresas em diferentes setores, depois os classifica em ideias de aplicativos estruturadas. A maior parte da entrada era lixo — comentários como "ótimo vídeo" ou "primeiro" ou ruído aleatório. Enviar tudo isso para o Sonnet seria absurdamente caro.

O Pipeline de Dois Estágios

Estágio 1 — Haiku como filtro: Cada comentário passa primeiro pelo Haiku com um prompt simples: "Este comentário contém uma frustração real, reclamação ou necessidade não atendida relacionada ao trabalho de alguém?" Ele retorna um sim/não e uma pontuação de confiança. Isso custa frações de centavo por chamada e filtra cerca de 85% da entrada.

Estágio 2 — Sonnet para o trabalho real: Apenas os comentários que passam pelo filtro vão para o Sonnet. É aqui que o processamento caro acontece — ele extrai o ponto principal da dor, classifica em um setor e categoria (sem lista predefinida, ele constrói a taxonomia dinamicamente), atribui uma pontuação de gravidade e gera conceitos de aplicativos com recursos e modelos de receita.

Resultados e Detalhes de Implementação

O resultado é executar o Sonnet em aproximadamente 15% da entrada total em vez de 100%, criando uma enorme economia de custos ao processar milhares de comentários.

Aprendizados-chave da implementação:

O Haiku é surpreendentemente bom no trabalho de filtro — ele captura reclamações reais consistentemente com poucos falsos negativos
A abordagem de taxonomia dinâmica (deixar o Sonnet decidir as categorias em vez de defini-las antecipadamente) encontrou categorias que o desenvolvedor nunca teria imaginado
O processamento em lotes ajuda no lado do Sonnet — tudo é enfileirado através do BullMQ e processado em lotes controlados para evitar sobrecarregar a API

Todo o sistema foi construído com Claude Code usando Next.js, Postgres com pgvector e tecnologias relacionadas.

📖 Leia a fonte completa: r/ClaudeAI

Usando Claude Haiku como Porteiro para Reduzir os Custos da API Sonnet em 80%

O Problema e a Solução

O Pipeline de Dois Estágios

Resultados e Detalhes de Implementação

👀 See Also

Problema de Desvio de Contexto no Pipeline de LLM Local em Fluxos de Trabalho Agentes de Múltiplos Passos

Usando o Claude com o Servidor MCP do TickTick para Organização de Estudos Pessoais

Estudo de Caso OpenClaw: Construindo 4 Produtos e Lançando um Negócio em 3 Semanas

Usando uma VM com OpenClaw para acesso direto a arquivos e iteração mais rápida