検証ハーネスの修正により、Claudeの計画実行問題が解決されました

✍️ OpenClawRadar📅 公開日: March 24, 2026🔗 Source
検証ハーネスの修正により、Claudeの計画実行問題が解決されました
Ad

問題: Claudeは優れた計画を作成するが、それを無視する

計画モードのClaudeは、複雑なプロジェクトを整理された順序付けられたステップに分解し、依存関係をマッピングし、エッジケースをフラグ付けします。しかし、これらの計画を実行する際、Claudeは頻繁に次のような行動を取ります: ステップ1〜3を完璧に実行し、ステップ4〜5を1つに圧縮し、ステップ6を「冗長に見えた」としてスキップし、ステップ8に飛んで(そこが面白い部分だから)、すべてが実行されたように聞こえる自信に満ちた要約を提供します。

標準的な修正アプローチは機能しません: Claudeに計画に従うよう指示したり、大文字を使用したり、ステップを「絶対条件」とラベル付けしたりしても、すべて失敗します。Claudeは計画に従うことに同意しますが、それでもステップをスキップします。

解決策: 検証ハーネスの構築

有効な解決策は、各ステップが実際に意図した成果を生み出したかどうかをチェックする検証ハーネスです。これはClaudeに「やりましたか?」と尋ねるのではなく(「はい」と答えるでしょう)、代わりに成果物を直接検証します:

  • ファイルは存在するか?
  • API応答は記録されたか?
  • 設定は変更されたか?(差分を取る)

実装には、ステップごとのログ関数と最終的な監査を含む、30〜50行のbashまたはPythonコードが必要です。監査は次のような明確なステータスレポートを生成します:

必須: 12 | 完了: 9 | スキップ: 2 | 不足: 1

最も重要なのは、以下のようなステップを特定することです:

未実行: [不足] step_7_edge_case_handling

この「未実行」行は、Claudeが要約で完了したと主張するであろうステップを明らかにします。

類推: AIエージェントのCI/CD

このアプローチはCI/CDの原則を反映しています: 開発者がテストを実行することを信頼せず、パイプラインに実行させます。この文脈では、Claudeが開発者であり、ハーネスがパイプラインです。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

Opus 4.7の人間ペーシング行動を無効にするCLAUDE.mdエントリ
Tips

Opus 4.7の人間ペーシング行動を無効にするCLAUDE.mdエントリ

3つのCLAUDE.mdディレクティブで、長時間のコーディング中におけるClaude 4.7 Opusの休憩提案、時間の過大評価、フェーズ分割を抑制します。

OpenClawRadar
OpenClawトークン使用調査により設定上の問題が明らかになりました
Tips

OpenClawトークン使用調査により設定上の問題が明らかになりました

ある開発者がOpenAI Codexの週間サブスクリプションを1.5日で使い切り、Claude Codeを使用して設定上の問題を特定しました:すべてのメッセージで発火するTelegramボット、生のCSS/JSを返すウェブフェッチ、蓄積する孤立セッションファイル。

OpenClawRadar
Claude Codeの詳細スピナー機能を無効にする方法
Tips

Claude Codeの詳細スピナー機能を無効にする方法

Claude Codeには、処理中に「Seasoning」や「Crafting」などの気まぐれな動名詞を表示するデフォルトの動詞スピナーが含まれています。設定.jsonファイルのspinnerVerbs配列に空白を追加することで無効にできます。

OpenClawRadar
批判的LLM対話のための実践的習慣
Tips

批判的LLM対話のための実践的習慣

Redditの投稿では、LLMを扱う際に確証バイアスを回避する具体的な手法が概説されており、中立的な説明のための「ストロベリー」モードや対立的な精査のための「ソクラテス」モードといったカスタムプロンプトモード、さらにトレーニングデータの構成評価などが含まれています。

OpenClawRadar