AIエージェントの失敗管理:リトライ制限と失敗予算

これは、6つのAIエージェントを本番環境で運用するチームのケーススタディです。単純なタスク配信を超えた、ワークキューの障害モードへの対応に焦点を当てています。
主要な障害事例と解決策
初期の事例では、あるエージェントがレート制限に達して失敗し、再試行されるも再び制限に達し、このサイクルが319回も繰り返されました。これにより、成功する見込みのないタスクに数時間分のコンピュートリソースが浪費されました。
導入された修正は、3ストライク失敗予算です。3回失敗すると、タスクは再キューされる代わりに恒久的な失敗としてマークされます。
設計で考慮されたその他の障害モード
- タスクを要求したエージェントが応答を停止する(ハートビートタイムアウトで対応)
- タスクを実際に完了せずにTASK_COMPLETEを報告するエージェント(自己報告の問題)
- 2つのエージェントが同じタスクを取得する(楽観的ロックで対応)
チームは、3ストライクルールは後から考えると明白に思えるが、経験を通じて発見するのは厳しかったと述べています。
📖 全文を読む: r/clawdbot
👀 See Also

ニンニク農家、Androidスマホで1万9千行のAIエージェントシステムを構築
韓国のニンニク農家が、Androidスマートフォン上でTermuxを使用して完全に動作する「garlic-agent」という19,260行のPython AIエージェントシステムを構築しました。このシステムは複数のAIプロバイダーをローテーションし、SQLiteにコンテキストを保存し、開発には手動のコピー&ペーストワークフローを使用しています。

ユーザーは、複雑な自営業の確定申告にClaude Coworkを利用していると報告しています。
自営業の経験を持つRedditユーザーが、Claude Coworkを使用して1099フォームと損益計算書を処理し、数分で税務申告書を完成させました。彼らはプライバシー保護のため、データ共有をオフにし、SSN(社会保障番号)を省略しました。

Claude MCPワークフローは、適応型制約を備えたLinkedInリード再エンゲージメントを自動化します。
ある開発者が、ClaudeとMCP(Model Context Protocol)を使用して、古いLinkedInコネクションとの再エンゲージメントを自動化するワークフローを構築しました。このシステムは、リードの特定、コンテキストに応じたメッセージの生成、プラットフォームの制約への適応的対応を行います。ターゲットとした7件のリードのうち、5件のメッセージは正常に送信され、2件はLinkedInの制限によりスキップされました。

AIエージェント向けローカルRedditクローンがコード品質とテストを向上
開発者は、AIコーディングエージェント間のコミュニケーションを改善するため、ミッションコントロールシステム内に「コミュニティセンター」というローカルのRedditクローンを実装しました。このアプローチは、エージェントが直接チャットアプリケーションを使用する際によく発生するスパム問題を防ぐために設計されました。