Usando Claude Haiku como Porteiro para Reduzir os Custos da API Sonnet em 80%

Um desenvolvedor compartilhou um padrão de economia de custos para processar grandes volumes de texto não estruturado através dos modelos Claude AI. A abordagem usa o Claude Haiku como um filtro para eliminar conteúdo irrelevante antes de enviar apenas dados valiosos para o modelo mais caro, Claude Sonnet.
O Problema e a Solução
O desenvolvedor construiu uma plataforma chamada PainSignal (painsignal.net) que coleta milhares de comentários reais de trabalhadores e proprietários de empresas em diferentes setores, depois os classifica em ideias de aplicativos estruturadas. A maior parte da entrada era lixo — comentários como "ótimo vídeo" ou "primeiro" ou ruído aleatório. Enviar tudo isso para o Sonnet seria absurdamente caro.
O Pipeline de Dois Estágios
Estágio 1 — Haiku como filtro: Cada comentário passa primeiro pelo Haiku com um prompt simples: "Este comentário contém uma frustração real, reclamação ou necessidade não atendida relacionada ao trabalho de alguém?" Ele retorna um sim/não e uma pontuação de confiança. Isso custa frações de centavo por chamada e filtra cerca de 85% da entrada.
Estágio 2 — Sonnet para o trabalho real: Apenas os comentários que passam pelo filtro vão para o Sonnet. É aqui que o processamento caro acontece — ele extrai o ponto principal da dor, classifica em um setor e categoria (sem lista predefinida, ele constrói a taxonomia dinamicamente), atribui uma pontuação de gravidade e gera conceitos de aplicativos com recursos e modelos de receita.
Resultados e Detalhes de Implementação
O resultado é executar o Sonnet em aproximadamente 15% da entrada total em vez de 100%, criando uma enorme economia de custos ao processar milhares de comentários.
Aprendizados-chave da implementação:
- O Haiku é surpreendentemente bom no trabalho de filtro — ele captura reclamações reais consistentemente com poucos falsos negativos
- A abordagem de taxonomia dinâmica (deixar o Sonnet decidir as categorias em vez de defini-las antecipadamente) encontrou categorias que o desenvolvedor nunca teria imaginado
- O processamento em lotes ajuda no lado do Sonnet — tudo é enfileirado através do BullMQ e processado em lotes controlados para evitar sobrecarregar a API
Todo o sistema foi construído com Claude Code usando Next.js, Postgres com pgvector e tecnologias relacionadas.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Problema de Desvio de Contexto no Pipeline de LLM Local em Fluxos de Trabalho Agentes de Múltiplos Passos
Um desenvolvedor executando um pipeline de automação de busca de emprego em várias etapas no Llama-3.3-70b-versatile descobriu que os modelos locais do Ollama tiveram dificuldades com coerência de contexto em pipelines de 5-6 nós, enquanto o nível gratuito do Groq com Claude teve melhor desempenho. O desenvolvedor também observou que os modelos do nível gratuito são descontinuados sem aviso, quebrando configurações.

Usando o Claude com o Servidor MCP do TickTick para Organização de Estudos Pessoais
Um desenvolvedor usou o Claude para criar um currículo de autoestudo a partir da transcrição de um vídeo do YouTube, depois conectou-o ao TickTick através do repositório GitHub ticktick-mcp para gerar automaticamente tarefas de projeto e uma visualização de calendário.

Estudo de Caso OpenClaw: Construindo 4 Produtos e Lançando um Negócio em 3 Semanas
Um não-desenvolvedor usou o OpenClaw para construir quatro produtos funcionais e lançar um negócio de instalação de IA em três semanas. Os projetos incluem uma plataforma de tutoria de matemática com IA, um bot de trading, um SaaS de painel de marketing e um dApp de mercado de previsão na Solana.

Usando uma VM com OpenClaw para acesso direto a arquivos e iteração mais rápida
Executar o OpenClaw em uma máquina virtual permite que os desenvolvedores visualizem, leiam e editem arquivos de projeto como AGENTS.md e HEARTBEAT.md diretamente, em vez de trabalhar exclusivamente por meio de interfaces de chat. Essa abordagem acelera significativamente os ciclos de iteração.