Reducir costos agente OpenClaw 80% cambio modelo

Un usuario de Reddit pasó dos semanas registrando manualmente cada interacción de su agente OpenClaw para averiguar a dónde iba su dinero. Los resultados son un plan claro para optimizar el gasto en agentes de IA.

El desglose

Durante 14 días en un agente de Telegram + Discord, el uso de tokens se desglosó de la siguiente manera:

Latidos (encuestas cada 30 min) — 38% del uso. Ejecutándose en Opus a ~$6.75/M de tokens. Un desperdicio total para un ping de estado.
Lecturas y resúmenes de archivos — 29% del uso. También en Opus. Flash maneja estos idénticamente.
Conversaciones reales — 22% del uso. Aquí la calidad del modelo importa.
Tareas complejas — 11% del uso. Donde Opus realmente supera a Flash.

En total, el 67% del gasto se destinó a tareas donde DeepSeek V4 Flash ($0.14/M) ofrecería la misma calidad que Opus ($6.75/M efectivo después del tokenizador).

La solución: Flash por defecto, escalar solo cuando sea necesario

Configura tu modelo principal como deepseek/deepseek-v4-flash en openclaw.json:

"agents": {
  "defaults": {
    "model": {
      "primary": "deepseek/deepseek-v4-flash"
    }
  }
}

Luego usa /model anthropic/claude-opus-4-7 a mitad de sesión cuando encuentres algo realmente difícil. El cambio es instantáneo: sin reinicio, misma sesión. Escribe /model deepseek/deepseek-v4-flash cuando termines para volver al económico.

Resultados

Los costos se redujeron de ~$170/mes a ~$35/mes. La diferencia de calidad en latidos, lecturas de archivos y preguntas simples fue literalmente cero.

El usuario señala que el nivel gratuito de BetterClaw (con BYOK) ahora muestra el gasto de API por tarea, lo que habría detectado el desperdicio de latidos de inmediato. Pero la jugada principal —cambiar el modelo principal a Flash y usar /model para subir a Opus solo cuando sea necesario— es la verdadera conclusión.

📖 Lee la fuente completa: r/openclaw

Cómo reducir los costos del agente OpenClaw en un 80% con el cambio de modelo

El desglose

La solución: Flash por defecto, escalar solo cuando sea necesario

Resultados

👀 Ver también

Los mensajes colaborativos frente a los directivos para la IA producen resultados diferentes.

Corregir maxTokens del modelo Ollama Cloud: Límite es 16K, no el valor configurado

8 Consejos Tácticos de Flujo de Trabajo con Claude Code para Resultados Listos para Producción

Por qué la mayoría de los fallos en los pipelines de Claude se deben a los prompts, no a los modelos, y cómo solucionarlo con habilidades