OpenClaw LLM-Timeout-Fix für das Laden kalter Modelle

Problem: Timeouts bei kalten Modellen nach 60 Sekunden
Benutzer berichteten, dass kalt geladene lokale Modelle in OpenClaw konsistent nach etwa 60 Sekunden versagten, obwohl das allgemeine Agent-Timeout viel höher eingestellt war. Dieses Problem trat auch mit Cloud-Modellen über Ollama und manchmal mit OpenAI Codex auf.
Das typische Fehlermuster:
- Modelle funktionieren, wenn sie bereits warm sind
- Kalte Modelle brechen nach ~60 Sekunden ab
- Logs erwähnen Timeout / eingebettetes Failover / Status: 408
- Fallback-Modell übernimmt
Irreführende Konfigurationen
Die Quelle warnt davor, dass mehrere offensichtliche Konfigurationsoptionen NICHT die eigentliche Lösung sind und Entwickler in die falsche Richtung lenken können:
agents.defaults.timeoutSeconds.zshrcExportsLLM_REQUEST_TIMEOUT- Sofortiges Beschuldigen von LM Studio / Ollama
Ursache
Das Problem rührt daher, dass OpenClaw ein separates eingebettetes Runner-LLM-Leerlauf-Timeout für die Zeit vor der Ausgabe des ersten gestreamten Tokens durch das Modell hat.
Quellenspur gefunden in:
src/agents/pi-embedded-runner/run/llm-idle-timeout.ts
Standardwert:
DEFAULT_LLM_IDLE_TIMEOUT_MS = 60_000
Der Konfigurationspfad wird aufgelöst von:
cfg?.agents?.defaults?.llm?.idleTimeoutSeconds
Der tatsächliche Konfigurationsparameter ist also:
agents.defaults.llm.idleTimeoutSeconds
Die Lösung
Nach Tests ist die funktionierende Konfiguration:
{
"agents": {
"defaults": {
"llm": {
"idleTimeoutSeconds": 180
}
}
}
}
Tests zeigten, dass ein kalter Gemma-Aufruf, der zuvor nach etwa 60 Sekunden fehlschlug, diese Schwelle überlebte und schließlich erfolgreich antwortete, ohne sofortiges Failover.
Empfohlene dauerhafte Konfiguration
{
"agents": {
"defaults": {
"timeoutSeconds": 300,
"llm": {
"idleTimeoutSeconds": 300
}
}
}
}
Die Empfehlung von 300 Sekunden berücksichtigt, dass lokale Modelle unvorhersehbar sein können, wobei falsche Failovers problematischer sind als längeres Warten auf wirklich kalte Modelle.
📖 Read the full source: r/openclaw
👀 Siehe auch

Claude Code Token-Verschwendung beheben: Deaktiviere Attribution-Header für bessere Cache-Treffer
Das Setzen von CLAUDE_CODE_ATTRIBUTION_HEADER=false in Ihrer Shell-Konfiguration kann die Cache-Trefferquote von Claude Code über Sitzungen hinweg von 48 % auf 99,98 % verbessern und die System-Prompt-Verarbeitungskosten pro Sitzung um das 7-fache reduzieren.

OpenClaw-Installationstipps: Onboarding überspringen und Diagnosebefehle verwenden
Ein Reddit-Nutzer teilt praktische Ratschläge zur OpenClaw-Installation: Überspringe den Onboarding-Prozess, um häufige Probleme zu vermeiden, besonders bei VPS-Einrichtungen, und verwende die Befehle openclaw doctor und openclaw status, um Konfigurationsprobleme zu diagnostizieren.

Verwendung von Projektberichten zur Aufrechterhaltung des OpenClaw-Kontexts bei Langzeitprojekten
Ein Entwickler teilt eine Technik zur Erstellung von 'Projekt-Narrativen', bei der ein separater OpenClaw-Worker nach Meilensteinen die Codebasis analysiert, um das Systemverständnis zu dokumentieren, Probleme zu identifizieren und den Kontext zu erhalten.

Optimierung von CLAUDE.md zur Reduzierung von Kontextangst in Claude AI
Eine Reddit-Diskussion hebt praktische Strategien zur Verbesserung der CLAUDE.md-Effektivität hervor, darunter das Halten von Dateien unter 200 Zeilen, die Verwendung spezifischer überprüfbarer Anweisungen und die Nutzung von Claudes automatischen Speicherfunktionen, um tokenverschwendende Korrekturschleifen zu vermeiden.