Fix OpenClaw LLM Cold Model Timeout Error

Problema: Tiempos de espera de modelos en frío a los 60 segundos

Los usuarios informaron que los modelos locales cargados en frío en OpenClaw fallaban consistentemente después de aproximadamente 60 segundos, a pesar de tener configurado un tiempo de espera general del agente mucho mayor. Este problema también ocurría con modelos en la nube a través de Ollama y, a veces, con OpenAI Codex.

El patrón típico de fallo:

Los modelos funcionan si ya están calientes
Los modelos en frío fallan alrededor de los ~60 segundos
Los registros mencionan tiempo de espera / conmutación por error embebida / estado: 408
El modelo de respaldo toma el control

Configuraciones engañosas

La fuente advierte que varias opciones de configuración obvias NO son la solución real y pueden llevar a los desarrolladores por el camino equivocado:

agents.defaults.timeoutSeconds
Exportaciones de .zshrc
LLM_REQUEST_TIMEOUT
Culpar inmediatamente a LM Studio / Ollama

Causa raíz

El problema surge porque OpenClaw tiene un tiempo de espera de inactividad del LLM del ejecutor embebido separado para el período antes de que el modelo emita el primer token transmitido.

Rastro de la fuente encontrado en:

src/agents/pi-embedded-runner/run/llm-idle-timeout.ts

Valor predeterminado:

DEFAULT_LLM_IDLE_TIMEOUT_MS = 60_000

La ruta de configuración se resuelve desde:

cfg?.agents?.defaults?.llm?.idleTimeoutSeconds

Por lo tanto, el parámetro de configuración real es:

agents.defaults.llm.idleTimeoutSeconds

La solución

Después de las pruebas, la configuración que funciona es:

{
  "agents": {
    "defaults": {
      "llm": {
        "idleTimeoutSeconds": 180
      }
    }
  }
}

Las pruebas mostraron que una llamada en frío a Gemma que antes fallaba alrededor de los 60 segundos sobrevivió más allá de ese umbral y finalmente respondió con éxito sin una conmutación por error inmediata.

Configuración permanente recomendada

{
  "agents": {
    "defaults": {
      "timeoutSeconds": 300,
      "llm": {
        "idleTimeoutSeconds": 300
      }
    }
  }
}

La recomendación de 300 segundos tiene en cuenta que los modelos locales son impredecibles, donde las conmutaciones por error falsas son más problemáticas que esperar más tiempo para modelos genuinamente en frío.

📖 Leer la fuente completa: r/openclaw