5 Correções para Timeouts do OpenClaw + Ollama

Problema: Agentes do OpenClaw Falhando Silenciosamente com Modelos Locais do Ollama

Um desenvolvedor depurando o OpenClaw 2026.4.2 com Ollama 0.20.2 e o modelo Gemma 4 26B-A4B Q8_0 em um Mac Studio M4 Max descobriu que os agentes não respondiam após um comando /new, apesar do modelo funcionar instantaneamente via ollama run. Nenhum erro aparecia nos logs, e o agente não mostrava indicador de digitação.

Causas Principais e Correções

Causa Principal #1: Gerador de Slugs Bloqueante: O hook session-memory do OpenClaw executa um gerador de slugs que envia uma requisição ao Ollama com um timeout fixo de 15 segundos. Se o modelo não conseguir processar o prompt de sistema do OpenClaw a tempo, o OpenClaw abandona a requisição, mas o Ollama continua processando-a, bloqueando requisições subsequentes dos agentes.
Correção: openclaw hooks disable session-memory
Causa Principal #2: Prompt de Sistema Grande: O OpenClaw injeta aproximadamente 38.500 caracteres de prompt de sistema (identidade, ferramentas, arquivos de bootstrap) por requisição. Modelos locais requerem 40-60 segundos para a fase de preenchimento prévio.
Correção: Adicionar à configuração para pular injeção de bootstrap e limitar caracteres:
```
{ "agents": { "defaults": { "skipBootstrap": true, "bootstrapTotalMaxChars": 500 } } }
```
Isso reduz o prompt para ~19K caracteres.
Causa Principal #3: Timeout de Inatividade Oculto: O OpenClaw tem um DEFAULT_LLM_IDLE_TIMEOUT_MS de 60 segundos. Se o modelo não produzir um primeiro token dentro desse tempo, ele mata a conexão e silenciosamente recorre a um modelo de fallback (ex: Claude Sonnet).
Correção: Definir uma chave de configuração não documentada:
```
{ "agents": { "defaults": { "llm": { "idleTimeoutSeconds": 300 } } } }
```
Causa Principal #4: Processamento Serial do Ollama: O Ollama processa requisições serialmente, então requisições abandonadas do gerador de slugs podem ocupar slots de processamento.
Correção: Adicionar à configuração plist/serviço do Ollama: OLLAMA_NUM_PARALLEL=4
Causa Principal #5: Atraso do Modo de Pensamento: O Gemma 4 tem por padrão uma fase de pensamento/raciocínio que adiciona 20-30 segundos antes do primeiro token.
Correção: Desabilitar na configuração:
```
{ "agents": { "defaults": { "thinkingDefault": "off" } } }
```

Configuração Completa Funcional

O desenvolvedor forneceu esta configuração completa para uma instalação funcional:

{ "agents": { "defaults": { "model": { "primary": "ollama/gemma4:26b-a4b-it-q8_0", "fallbacks": ["anthropic/claude-sonnet-4-6"] }, "thinkingDefault": "off", "timeoutSeconds": 600, "skipBootstrap": true, "bootstrapTotalMaxChars": 500, "llm": { "idleTimeoutSeconds": 300 } } } }

Além disso, fixar o modelo na memória para evitar descarregamento entre requisições:

curl http://localhost:11434/api/generate -d '{"model":"gemma4:26b-a4b-it-q8_0","keep_alive":-1,"options":{"num_ctx":16384}}'

Resultados e Compensações

Após aplicar as correções, a primeira mensagem após /new leva cerca de 60 segundos devido ao preenchimento prévio do prompt de sistema, o que é descrito como inevitável para modelos locais. Mensagens subsequentes são rápidas porque o Ollama armazena em cache o estado KV. A configuração usa 31GB de VRAM, 100% da GPU e uma janela de contexto de 16K, funcionando totalmente localmente com custo zero de API.

O atraso inicial é a compensação para operação totalmente local, privacidade e nenhum custo. O desenvolvedor observa que vale a pena se esses fatores forem priorizados.

📖 Leia a fonte completa: r/LocalLLaMA

Depuração de Timeouts do Modelo Local OpenClaw + Ollama: Cinco Correções para Falhas Silenciosas

Problema: Agentes do OpenClaw Falhando Silenciosamente com Modelos Locais do Ollama

Causas Principais e Correções

Configuração Completa Funcional

Resultados e Compensações

👀 See Also

Solução de Problemas do OpenClaw: Um Método de Reinicialização Minimalista

Como Reivindicar e Estender Créditos da API da Anthropic Usando o Roteador do Manifest

AGENTS.md Feito Corretamente: Um Aumento de 25% na Precisão — ou uma Queda de 30%

Claude Code Skills vs. Custom Agents: Um Modelo Mental Baseado na Consistência de Tarefas