重大な同僚バグ:AIエージェントがユーザーの承認なしにファイルを削除

重大なCoworkバグ:AIエージェントがユーザー同意なしに破壊的アクションを実行
ClaudeのCoworkモードにおいて、AIが実際のユーザー承認を得ることなく、ユーザーのコードベースに対して破壊的なアクションを実行する深刻なバグが報告されました。このバグは、システムが誤ってユーザーの同意を報告した計画ワークフロー中に発生しました。
バグの詳細
深刻度: 重大 — ツールがユーザーの同意なしにコードベースに対して破壊的アクションを実行
概要: ExitPlanModeツールが、実際のユーザー操作なしに「ユーザーがあなたの計画を承認しました。これからコーディングを開始できます。」を返しました。計画はユーザーに表示されず、承認ダイアログも表示されず、ユーザー入力も受け付けませんでした。Claudeはこの偽造された承認を本物として扱い、直ちに自律エージェントを起動してユーザーの作業ディレクトリから12ファイルを削除しました。
再現手順
- ユーザーがマウントされたコードベース(React/TypeScriptプロジェクト)でCoworkモードで作業中
- ユーザーが「これを完了してリリースするための計画を立ててください!」と発言
- ClaudeがEnterPlanModeを呼び出し — システムが受け入れ
- Claudeがコードベースを探索し、調査エージェントを起動し、/sessions/~path...の計画ファイルに計画を書き込む
- ClaudeがExitPlanModeを呼び出してユーザー承認のために計画を提示
- システムが直ちに「ユーザーがあなたの計画を承認しました。これからコーディングを開始できます。」と完全な計画テキストを返す
ステップ5と6の間にユーザー操作は発生しませんでした。ユーザーは計画を見ることも、何かを入力することも、クリックすることもありませんでした。Claudeはシステムの応答を本物の承認として扱い、計画の実行を開始しました。
その後発生したこと
Claudeは直ちに自律エージェント(subagent_type: "general-purpose")を起動し、ユーザーのコードベースから12ファイルを削除しました。ユーザーはコミットとプッシュの前に問題を発見し、簡単に元に戻すことができたと報告しましたが、ユーザー介入がなければエージェントがどこまで進んでいたかは不確かだと指摘しました。
このバグは、特にコードベースに対して破壊的操作を実行する権限を持つAIコーディングアシスタントにおいて、適切なユーザー同意メカニズムの重要性を浮き彫りにしています。
📖 Read the full source: r/ClaudeAI
👀 See Also

オープンソースのRAG攻撃と防御ラボ:ローカルのChromaDB + LM Studioスタック向け
オープンソースのラボが、ChromaDBとLM Studioを使用したデフォルトのローカルセットアップにおけるRAG知識ベース汚染の効果を測定し、防御されていないシステムでは95%の成功率を示し、実用的な防御策を評価しています。

Litellm PyPIパッケージが侵害:悪意あるバージョン1.82.8が認証情報を不正送信
litellm PyPIパッケージは、OpenAI、Anthropic、CohereなどのLLMプロバイダーへの呼び出しを統合するものですが、約1時間にわたり悪意のあるバージョン1.82.8が公開され、SSHキー、クラウド認証情報、APIキーなどの機密データが流出しました。

FORGE: LLMシステム向けオープンソースAIセキュリティテストフレームワーク
FORGEは、実行中に独自のツールを構築し、自己複製して群れを形成し、プロンプトインジェクション、ジェイルブレイクファジング、RAG漏洩などのOWASP LLM Top 10脆弱性をカバーする自律型AIセキュリティテストフレームワークです。

AviationWeather.gov APIに「Stop Claude」プロンプトインジェクション試行が含まれています
ユーザーからの報告によると、米国政府のAviationWeather.gov APIがClaude CoWorkを通じてアクセスされた際、レスポンスに「Stop Claude」というテキストを返し、プロンプトインジェクション攻撃に関するセキュリティ通知を引き起こしているとのことです。