Cómo reducir los costos del agente OpenClaw en un 80% con el cambio de modelo

Un usuario de Reddit pasó dos semanas registrando manualmente cada interacción de su agente OpenClaw para averiguar a dónde iba su dinero. Los resultados son un plan claro para optimizar el gasto en agentes de IA.
El desglose
Durante 14 días en un agente de Telegram + Discord, el uso de tokens se desglosó de la siguiente manera:
- Latidos (encuestas cada 30 min) — 38% del uso. Ejecutándose en Opus a ~$6.75/M de tokens. Un desperdicio total para un ping de estado.
- Lecturas y resúmenes de archivos — 29% del uso. También en Opus. Flash maneja estos idénticamente.
- Conversaciones reales — 22% del uso. Aquí la calidad del modelo importa.
- Tareas complejas — 11% del uso. Donde Opus realmente supera a Flash.
En total, el 67% del gasto se destinó a tareas donde DeepSeek V4 Flash ($0.14/M) ofrecería la misma calidad que Opus ($6.75/M efectivo después del tokenizador).
La solución: Flash por defecto, escalar solo cuando sea necesario
Configura tu modelo principal como deepseek/deepseek-v4-flash en openclaw.json:
"agents": {
"defaults": {
"model": {
"primary": "deepseek/deepseek-v4-flash"
}
}
}Luego usa /model anthropic/claude-opus-4-7 a mitad de sesión cuando encuentres algo realmente difícil. El cambio es instantáneo: sin reinicio, misma sesión. Escribe /model deepseek/deepseek-v4-flash cuando termines para volver al económico.
Resultados
Los costos se redujeron de ~$170/mes a ~$35/mes. La diferencia de calidad en latidos, lecturas de archivos y preguntas simples fue literalmente cero.
El usuario señala que el nivel gratuito de BetterClaw (con BYOK) ahora muestra el gasto de API por tarea, lo que habría detectado el desperdicio de latidos de inmediato. Pero la jugada principal —cambiar el modelo principal a Flash y usar /model para subir a Opus solo cuando sea necesario— es la verdadera conclusión.
📖 Lee la fuente completa: r/openclaw
👀 Ver también

Prevención de la desviación de salida en hilos largos de Claude mediante el anclaje de respuestas de alta calidad
Un usuario describe cómo las respuestas de Claude se degradan después de 30-40 mensajes, y cómo anclan la mejor respuesta intermedia para iniciar conversaciones nuevas.

Tasa de Aceptación de MTP: El Umbral del 50% Determina el Beneficio de la Decodificación Especulativa
MTP (Predicción Multi-Token) mediante decodificación especulativa en Gemma-4 26B muestra beneficio solo cuando la tasa de aceptación de tokens borradores supera el 50% — basado en benchmarks mlx-vlm en M4 Max Studio.

Gancho Personalizado PostToolUse para Carga Bajo Demanda de CLAUDE.md Fuera del Árbol del Proyecto
Un desarrollador comparte una solución personalizada de enlace PostToolUse que permite a Claude Code leer archivos CLAUDE.md de directorios fuera del árbol del proyecto actual bajo demanda, abordando las limitaciones en el comportamiento de carga integrado.

Éxito silencioso: el enfoque de un desarrollador para las alertas de cron jobs
Un desarrollador en r/openclaw deja de enviar notificaciones de éxito para ejecuciones de cron saludables, alertando solo sobre fallos de autenticación, corrupción de estado o fallos repetidos.