Reducir costos de agente: de $18 a $4 con enrutamiento eficiente

Un desarrollador en r/ClaudeAI describe una estrategia práctica de optimización de costos para bucles de agentes: enrutar subtareas rutinarias a modelos baratos y reservar modelos costosos (Opus 4.7) solo para razonamiento complejo. Su agente de refactorización —que maneja cambios de nombres de variables CSS, actualizaciones de configuración YAML y ejecuciones de linter a través de MCP— originalmente enviaba cada paso a Opus 4.7 con un costo total de aproximadamente $18. Después de implementar la lógica de enrutamiento, 178 de 212 pasos fueron a modelos baratos, reduciendo el costo a aproximadamente $4 sin diferencias de calidad observables en cambios rutinarios.

Lógica de enrutamiento

Subtareas complejas → Opus 4.7: Arquitectura de componentes, depuración de código de madrugada, cualquier cosa que requiera razonamiento sostenido en conversaciones largas. El autor señala que Opus es genuinamente insuperable en ese tipo de trabajo; un intento previo de enrutar un fallo de middleware de autenticación a un modelo más barato rompió silenciosamente el manejo de sesiones, costando una hora de rastreo.
Subtareas rutinarias → modelos más baratos: Lint, renombrar, ediciones de configuración, orquestación de herramientas. El autor optó por DeepSeek V4 Pro para tareas de codificación general y Tencent Hunyuan Hy3 vista previa para llamadas intensivas a herramientas. A finales de abril, Hunyuan Hy3 ocupaba el puesto #1 en OpenRouter por volumen de llamadas a herramientas y casi nunca falla una llamada a función cuando el esquema es limpio.

Comparación de costos

Opus 4.7: ~$0.18 por millón de tokens de entrada (estimado del contexto de ~28 veces más barato).
Tencent Hunyuan Hy3: $0.18 por millón de tokens de entrada, $0.59 por millón de salida — aproximadamente 28 veces más barato que Opus 4.7 en entrada.
Misma refactorización de 212 pasos: 178 pasos al nivel barato, 34 pasos a Opus. El costo bajó de $18 a ~$4.

Modos de fallo

El modelo de llamada a herramientas alucina parámetros cuando los esquemas son descuidados (el autor admite que los esquemas eran malos).
DeepSeek V4 Pro ocasionalmente escribe código sintácticamente perfecto que hace lo contrario de lo solicitado, sobreviviendo a un vistazo rápido.
Ningún modelo barato puede igualar a Opus para depurar problemas profundos (por ejemplo, un flujo de autenticación que se come silenciosamente una cookie).

Heurística de decisión

La regla general de enrutamiento del autor: "¿Qué tan costoso es detectar una respuesta incorrecta?" Una mala corrección de lint cuesta un revert de git de 2 segundos; una mala decisión de arquitectura cuesta toda la tarde.

Los ahorros permitieron tareas previamente omitidas —como escribir y ejecutar pruebas para cada cambio de CSS, o regenerar todas las imágenes de Open Graph— porque a fracciones de centavo por llamada a herramienta no hay razón para no hacerlo.

📖 Lee la fuente completa: r/ClaudeAI

Enrutamiento de subtareas del agente a modelos más baratos redujo el costo de $18 a $4 en la misma refactorización

Lógica de enrutamiento

Comparación de costos

Modos de fallo

Heurística de decisión

👀 Ver también

Cómo se inyectan las instrucciones del Proyecto Claude — Y por qué cambiarlas a mitad de conversación rompe el historial

Consejos de instalación de OpenClaw: Omitir el proceso de incorporación y usar comandos de diagnóstico

El enrutamiento reduce el costo máximo de uso de OpenClaw en un 85%: de $200/mes a $30/mes con enrutamiento API

Perspectivas Prácticas del Uso de OpenClaw Basadas en la Experiencia Directa