OpenClaw + Ollama ローカルモデルのタイムアウトをデバッグ:サイレント障害に対する5つの修正方法

問題:ローカルOllamaモデルでのOpenClawエージェントの暗黙的な失敗
M4 Max Mac StudioでOpenClaw 2026.4.2、Ollama 0.20.2、Gemma 4 26B-A4B Q8_0モデルをデバッグしていた開発者は、ollama runではモデルが即座に動作するにもかかわらず、/newコマンド後にエージェントが応答しないことを発見しました。ログにはエラーが表示されず、エージェントにはタイピングインジケーターも表示されませんでした。
根本原因と修正
- 根本原因 #1:スラッグジェネレーターのブロッキング:OpenClawの
session-memoryフックは、ハードコードされた15秒のタイムアウトでOllamaにリクエストを送信するスラッグジェネレーターを実行します。モデルがOpenClawのシステムプロンプトを時間内に処理できない場合、OpenClawはリクエストを放棄しますが、Ollamaは処理を続行し、後続のエージェントリクエストをブロックします。
修正:openclaw hooks disable session-memory - 根本原因 #2:大きなシステムプロンプト:OpenClawはリクエストごとに約38,500文字のシステムプロンプト(アイデンティティ、ツール、ブートストラップファイル)を注入します。ローカルモデルでは、プレフィルフェーズに40〜60秒を要します。
修正:設定に追加してブートストラップ注入をスキップし、文字数を制限:
これにより、プロンプトは約19K文字に削減されます。{ "agents": { "defaults": { "skipBootstrap": true, "bootstrapTotalMaxChars": 500 } } } - 根本原因 #3:隠れたアイドルタイムアウト:OpenClawには
DEFAULT_LLM_IDLE_TIMEOUT_MSが60秒あります。モデルがこの時間内に最初のトークンを生成しない場合、接続を切断し、暗黙的にフォールバックモデル(例:Claude Sonnet)に切り替えます。
修正:未公開の設定キーを設定:{ "agents": { "defaults": { "llm": { "idleTimeoutSeconds": 300 } } } } - 根本原因 #4:Ollamaのシリアル処理:Ollamaはリクエストを逐次処理するため、放棄されたスラッグジェネレーターリクエストが処理スロットを保持する可能性があります。
修正:Ollama plist/サービス設定に追加:OLLAMA_NUM_PARALLEL=4 - 根本原因 #5:思考モードの遅延:Gemma 4はデフォルトで思考/推論フェーズがあり、最初のトークンの前に20〜30秒を追加します。
修正:設定で無効化:{ "agents": { "defaults": { "thinkingDefault": "off" } } }
完全な動作設定
開発者は、動作するセットアップの完全な設定を提供しました:
{ "agents": { "defaults": { "model": { "primary": "ollama/gemma4:26b-a4b-it-q8_0", "fallbacks": ["anthropic/claude-sonnet-4-6"] }, "thinkingDefault": "off", "timeoutSeconds": 600, "skipBootstrap": true, "bootstrapTotalMaxChars": 500, "llm": { "idleTimeoutSeconds": 300 } } } }さらに、リクエスト間のアンロードを防ぐためにモデルをメモリに固定:
curl http://localhost:11434/api/generate -d '{"model":"gemma4:26b-a4b-it-q8_0","keep_alive":-1,"options":{"num_ctx":16384}}'結果とトレードオフ
修正を適用した後、/new後の最初のメッセージはシステムプロンプトのプレフィルにより約60秒かかりますが、これはローカルモデルでは避けられないと説明されています。後続のメッセージは、OllamaがKV状態をキャッシュするため高速です。このセットアップは31GB VRAM、100% GPU、16Kコンテキストウィンドウを使用し、完全にローカルで動作し、APIコストはゼロです。
初期遅延は、完全なローカル操作、プライバシー、コストゼロのためのトレードオフです。開発者は、これらの要素を優先する場合は価値があると指摘しています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

Claude APIのレート制限:タイムゾーンウィンドウ、コンテキスト管理、MCPオーバーヘッド
Claude APIのレート制限分析によると、ピーク時間帯(太平洋時間5時~11時/東部時間8時~14時の平日)により厳しい制限が課され、コンテキスト管理とMCPサーバーの使用がトークン消費に大きく影響することが明らかになりました。実用的な戦略としては、ピーク時間外での作業、新しいタスクごとに会話を新規開始、MCP統合の監査などが挙げられます。

ローカルClaudeコードセットアップ:llama.cpp経由のQwen3.5 27B
開発者が、llama.cppを使用してQwen3.5 27BでClaude Codeをローカルで実行するための設定を共有しています。これには、環境変数、サーバーパラメータ、および7つのコーディングタスクにわたるパフォーマンスベンチマークが含まれます。

経験から得た実用的なマルチエージェントシステムアーキテクチャのアドバイス
開発者が、7つのエージェントを毎日稼働させるシステムの経験に基づいて、マルチエージェントAIシステム構築のための5つの具体的なパターンを共有しています:1つのエージェントから始める、オーケストレータパターンを使用する、JSONファイルで共有メモリを実装する、タスクごとにモデルをルーティングする、確認ループを追加する。

ChatGPTからClaudeへのユーザーコンテキスト転送方法
Redditユーザーが、ChatGPTから詳細な認知プロファイルを抽出し、Claudeに転送可能なポータブルなAI憲章を作成する2プロンプト手法を共有。AIシステム間での移行の難しさに対処。