Reducir costos API Sonnet 80% usando Claude Haiku como guardián

Un desarrollador compartió un patrón de ahorro de costos para procesar grandes volúmenes de texto no estructurado a través de los modelos de Claude AI. El enfoque utiliza Claude Haiku como guardián para filtrar contenido irrelevante antes de enviar solo datos valiosos al modelo más costoso Claude Sonnet.

El Problema y la Solución

El desarrollador construyó una plataforma llamada PainSignal (painsignal.net) que extrae miles de comentarios reales de trabajadores y dueños de negocios de diferentes industrias, luego los clasifica en ideas de aplicaciones estructuradas. La mayor parte de la entrada era basura — comentarios como "gran video" o "primero" o ruido aleatorio. Enviar todo eso a Sonnet sería increíblemente costoso.

La Canalización de Dos Etapas

Etapa 1 — Haiku como puerta: Cada comentario llega primero a Haiku con un mensaje simple: "¿Contiene este comentario una frustración real, queja o necesidad no satisfecha relacionada con el trabajo de alguien?" Devuelve un sí/no y una puntuación de confianza. Esto cuesta fracciones de centavo por llamada y filtra aproximadamente el 85% de la entrada.

Etapa 2 — Sonnet para el trabajo real: Solo los comentarios que pasan la puerta van a Sonnet. Aquí es donde ocurre el procesamiento costoso — extrae el punto de dolor central, lo clasifica en una industria y categoría (sin lista predefinida, construye la taxonomía dinámicamente), asigna una puntuación de gravedad y genera conceptos de aplicaciones con características y modelos de ingresos.

Resultados y Detalles de Implementación

El resultado es ejecutar Sonnet en aproximadamente el 15% de la entrada total en lugar del 100%, creando ahorros masivos de costos al procesar miles de comentarios.

Aprendizajes clave de la implementación:

Haiku es sorprendentemente bueno en el trabajo de puerta — detecta quejas reales consistentemente con pocos falsos negativos
El enfoque de taxonomía dinámica (dejar que Sonnet decida las categorías en lugar de definirlas de antemano) encontró categorías que el desarrollador nunca habría imaginado
El procesamiento por lotes ayuda en el lado de Sonnet — todo se encola a través de BullMQ y se procesa en lotes controlados para evitar saturar la API

Todo el sistema fue construido con Claude Code usando Next.js, Postgres con pgvector y tecnologías relacionadas.

📖 Leer la fuente completa: r/ClaudeAI

Usando Claude Haiku como Guardián para Reducir los Costos de la API de Sonnet en un 80%

El Problema y la Solución

La Canalización de Dos Etapas

Resultados y Detalles de Implementación

👀 Ver también

Agente de IA recomienda cambiar de GitHub Runners a Mac Mini autohospedado

Depurando un Pequeño Agente de IA en un Teléfono Nokia Antiguo: 18 Intentos para el Éxito

Depurando un BadUSB de Pi Zero 2W con Claude Code: Solucionando un error 'imposible'

Programa de Socios de Claude: Consultoría de dos personas resuelve requisito de diez con independientes certificados