Claude Code 2.1.136: アクション安全性とハード拒否ルール追加

Claude Code v2.1.136 は、システムプロンプト、エージェントプロンプト、ツールの説明にわたって、エージェントの安全性とルールの適用に大きな変更をもたらします。新機能と自律エージェントの動作への影響を説明します。

システムプロンプト：アクションの安全性と真実の報告

更新されたシステムプロンプトでは、元に戻せない、または外部向けのアクションを実行する前に、エージェントに確認を求める必要があります（永続的に承認された場合を除く）。エージェントは、削除または上書きする前にターゲットを検査する必要があります。報告要件では、スキップされた手順、失敗したテスト、検証済みの結果を忠実に開示することが強調され、失敗を隠蔽することは許可されません。

エージェントプロンプト：自動モードルールレビューア

新しいカスタムルールカテゴリ hard_deny が、既存の allow、deny、soft_deny に加えて 4 番目のオプションとして導入されました。hard_deny は、セキュリティ境界でアクションを無条件にブロックします。ユーザーの意図では上書きできません。既存の soft_deny カテゴリは、ユーザーの明確な意図で認可可能な破壊的または不可逆的なアクションのみを対象とするよう範囲が狭められました。

エージェントプロンプト：自律エージェントアクションのセキュリティモニター

セキュリティモニターのロジックが 2 つの部分に再構成されました。最初の部分では、ブロッキングを無条件の ハードブロック とユーザー認可可能な ソフトブロック に分割します。デフォルトルールが更新され、ユーザーの意図ではハードブロックのセキュリティ境界をクリアできなくなりました。2 番目の部分では、データ漏洩をハードブロックセットに移動し、安全チェックバイパスに対するハードブロックカバレッジを追加し、エージェントが推測した外部サービスやダウンロードソースをすべて信頼できないものとして扱います。