Depuração de Timeouts do Modelo Local OpenClaw + Ollama: Cinco Correções para Falhas Silenciosas

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source
Depuração de Timeouts do Modelo Local OpenClaw + Ollama: Cinco Correções para Falhas Silenciosas
Ad

Problema: Agentes do OpenClaw Falhando Silenciosamente com Modelos Locais do Ollama

Um desenvolvedor depurando o OpenClaw 2026.4.2 com Ollama 0.20.2 e o modelo Gemma 4 26B-A4B Q8_0 em um Mac Studio M4 Max descobriu que os agentes não respondiam após um comando /new, apesar do modelo funcionar instantaneamente via ollama run. Nenhum erro aparecia nos logs, e o agente não mostrava indicador de digitação.

Causas Principais e Correções

  • Causa Principal #1: Gerador de Slugs Bloqueante: O hook session-memory do OpenClaw executa um gerador de slugs que envia uma requisição ao Ollama com um timeout fixo de 15 segundos. Se o modelo não conseguir processar o prompt de sistema do OpenClaw a tempo, o OpenClaw abandona a requisição, mas o Ollama continua processando-a, bloqueando requisições subsequentes dos agentes.
    Correção: openclaw hooks disable session-memory
  • Causa Principal #2: Prompt de Sistema Grande: O OpenClaw injeta aproximadamente 38.500 caracteres de prompt de sistema (identidade, ferramentas, arquivos de bootstrap) por requisição. Modelos locais requerem 40-60 segundos para a fase de preenchimento prévio.
    Correção: Adicionar à configuração para pular injeção de bootstrap e limitar caracteres:
    { "agents": { "defaults": { "skipBootstrap": true, "bootstrapTotalMaxChars": 500 } } }
    Isso reduz o prompt para ~19K caracteres.
  • Causa Principal #3: Timeout de Inatividade Oculto: O OpenClaw tem um DEFAULT_LLM_IDLE_TIMEOUT_MS de 60 segundos. Se o modelo não produzir um primeiro token dentro desse tempo, ele mata a conexão e silenciosamente recorre a um modelo de fallback (ex: Claude Sonnet).
    Correção: Definir uma chave de configuração não documentada:
    { "agents": { "defaults": { "llm": { "idleTimeoutSeconds": 300 } } } }
  • Causa Principal #4: Processamento Serial do Ollama: O Ollama processa requisições serialmente, então requisições abandonadas do gerador de slugs podem ocupar slots de processamento.
    Correção: Adicionar à configuração plist/serviço do Ollama: OLLAMA_NUM_PARALLEL=4
  • Causa Principal #5: Atraso do Modo de Pensamento: O Gemma 4 tem por padrão uma fase de pensamento/raciocínio que adiciona 20-30 segundos antes do primeiro token.
    Correção: Desabilitar na configuração:
    { "agents": { "defaults": { "thinkingDefault": "off" } } }
Ad

Configuração Completa Funcional

O desenvolvedor forneceu esta configuração completa para uma instalação funcional:

{ "agents": { "defaults": { "model": { "primary": "ollama/gemma4:26b-a4b-it-q8_0", "fallbacks": ["anthropic/claude-sonnet-4-6"] }, "thinkingDefault": "off", "timeoutSeconds": 600, "skipBootstrap": true, "bootstrapTotalMaxChars": 500, "llm": { "idleTimeoutSeconds": 300 } } } }

Além disso, fixar o modelo na memória para evitar descarregamento entre requisições:

curl http://localhost:11434/api/generate -d '{"model":"gemma4:26b-a4b-it-q8_0","keep_alive":-1,"options":{"num_ctx":16384}}'

Resultados e Compensações

Após aplicar as correções, a primeira mensagem após /new leva cerca de 60 segundos devido ao preenchimento prévio do prompt de sistema, o que é descrito como inevitável para modelos locais. Mensagens subsequentes são rápidas porque o Ollama armazena em cache o estado KV. A configuração usa 31GB de VRAM, 100% da GPU e uma janela de contexto de 16K, funcionando totalmente localmente com custo zero de API.

O atraso inicial é a compensação para operação totalmente local, privacidade e nenhum custo. O desenvolvedor observa que vale a pena se esses fatores forem priorizados.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Como a Memória do OpenCLAW Realmente Funciona: Corrigindo o 'Esquecimento' do Agente
Guides

Como a Memória do OpenCLAW Realmente Funciona: Corrigindo o 'Esquecimento' do Agente

Os agentes OpenCLAW não possuem memória persistente entre conversas - eles reconstroem o contexto a partir de arquivos como SOUL.md, USER.md e MEMORY.md a cada vez. Problemas comuns de 'esquecimento' surgem de sessões antigas, arquivos de memória desestruturados e armazenamento de informações importantes no histórico de chat em vez de arquivos permanentes.

OpenClawRadar
100 Dicas para Construir um Agente de IA Pessoal: Do Protótipo na Nuvem à Produção
Guides

100 Dicas para Construir um Agente de IA Pessoal: Do Protótipo na Nuvem à Produção

Seis semanas construindo um agente de IA persistente — não um wrapper de chatbot — que gerencia tarefas, acompanha negócios, lê e-mails e analisa dados. Principais lições: Escreva uma Constituição, não um prompt de sistema; use arquivos markdown simples para memória; e versione seu arquivo de identidade no git.

OpenClawRadar
Corrigindo erros de 'Navigate Unsupported' e plugins do navegador no OpenClaw auto-hospedado no Docker
Guides

Corrigindo erros de 'Navigate Unsupported' e plugins do navegador no OpenClaw auto-hospedado no Docker

Correção passo a passo para erros de permissão EACCES, falta de Playwright e binários do Chromium ao hospedar o OpenClaw com Docker em um VPS como Hostinger.

OpenClawRadar
Configuração do Espaço de Trabalho OpenClaw: Lições de Dois Meses de Uso
Guides

Configuração do Espaço de Trabalho OpenClaw: Lições de Dois Meses de Uso

A experiência de um desenvolvedor com o OpenClaw mostra que a qualidade do espaço de trabalho impacta o desempenho do agente em 5 a 10 vezes, com orientações específicas sobre SOUL.md, AGENTS.md, MEMORY.md, USER.md e configuração de habilidades.

OpenClawRadar