Cómo ahorrar tokens en Claude Code: redirige preguntas a Haiku

Un desarrollador en r/ClaudeAI estaba alcanzando su límite semanal de $20 en Claude Code cada jueves. Después de auditar las últimas 50 indicaciones, se dio cuenta de que la mayoría eran preguntas simples de chat que no necesitaban un agente: "¿qué dice este stack trace?", "regex para coincidir con X", "explica qué hace este one-liner de bash", "convierte este curl a httpie" y "cuál es el jq para extraer el campo Y de esto".

Cada una de esas indicaciones en Claude Code estaba pagando el costo total del agente — carga de contexto, definiciones de herramientas, tokens de planificación — para una respuesta de una línea. La solución: enrutar todas las preguntas tipo chat a una ventana de chat normal usando un modelo barato (Haiku o GPT-mini). Reservar Claude Code para ediciones de múltiples archivos, refactorizaciones y depuración que realmente necesiten leer el código base.

Resultados después de ~3 semanas

Pasó de alcanzar el límite semanal para el jueves a no alcanzarlo nunca, haciendo la misma cantidad de trabajo.
Gasto adicional en llamadas a la API de modelos baratos: aproximadamente $3–4 por semana — insignificante.
Beneficio adicional: las respuestas de modelos baratos llegan más rápido que Claude Code iniciando su bucle de agente, por lo que las preguntas rápidas se sienten más rápidas.

Nota sobre el flujo de trabajo

Para evitar cambiar entre la terminal (Claude Code) y una ventana de chat, ahora usan una terminal llamada yaw.sh que coloca un chat de múltiples proveedores en el indicador junto a Claude Code. Pero cualquier herramienta de chat en otra ventana funciona — el cambio en el flujo de trabajo es lo que ahorra los tokens.

TL;DR: Si estás alcanzando el límite semanal de Claude Code, audita tus últimas 50 indicaciones. Probablemente la mayoría no necesita un agente. Sácalas y probablemente dejarás de alcanzar el límite.

📖 Lee la fuente completa: r/ClaudeAI

Deja de quemar tokens de Claude Code en preguntas de chat

Resultados después de ~3 semanas

Nota sobre el flujo de trabajo

👀 Ver también

El enrutamiento reduce el costo máximo de uso de OpenClaw en un 85%: de $200/mes a $30/mes con enrutamiento API

Diagnóstico del rendimiento degradado de Claude: Causas raíces y soluciones

Consejos de instalación de OpenClaw: Omitir el proceso de incorporación y usar comandos de diagnóstico

10 Consejos Prácticos para Usar Claude Code de un Usuario de Reddit