AI TDDパイプライン:不良な指示が3,400件のテストを生み出した経緯とその解決策

問題:大規模な文字通りの解釈
ある開発者がClaude Codeを使用してマルチエージェントTDDパイプラインを作成し、異なるエージェントが特定の役割を担当しました:1つはテストを書き、1つはそれらをパスするコードを書き、1つはすべてをレビューし、1つはエッジケースを探します。最初の指示は単純でした:「すべてに対してテストを書け」。
システムは機能しているように見えました—テスト数は増え続け、CIはグリーンのままでした。しかし、監査により、生成された3,400件のテストに問題があることが明らかになりました:
- 44%が有効
- 30%が再作業が必要
- 26%が完全なゴミ
ゴミテストには以下が含まれていました:
- JSON設定オブジェクトを構築し、それが自分自身と等しいと主張するテスト
- TypeScriptインターフェースが正しい形状を持っているかどうかを、オブジェクトを構築し、それが今構築したものと一致すると主張することでチェックするテスト
- 決して変更されない静的ファイルのテスト
開発者はほぼ20,000行のテストコードを削除し、核心の問題を特定しました:「Claudeが失敗したわけではない。私が失敗したのだ。私は『すべてに対してテストを書け』と言い、それは私の言葉をしっかりと聞き取った。すべてのファイル。すべての設定。すべての型定義。私の指示が問題であり、エージェントはそれを完璧に実行した。」
解決策:分類とレビュー
修正には2つの重要な変更が含まれました:
1. テスト前に作業項目を分類:
- 機能には3〜5つの振る舞いテスト(このものが実際に機能するか?)
- タスクには1〜2つのスモークテスト(明らかな破壊はないか?)
- バグには2〜3つの回帰テスト(この特定のバグは再発するか?)
- 機能強化では、新規または変更された振る舞いのみをテスト
2. レビューエージェントの追加: 別のエージェントがテストと実装の両方を新鮮なコンテキストで見て、書き込みエージェントが自分の出力に近すぎて見逃した問題を捕捉します。
修正後の結果
- 3,400件のテストから2,525件に削減
- 実行時間が117秒から約50秒に短縮
- 残りのすべてのテストが実際の振る舞いを検証
重要な洞察
「AIエージェントでの構築は、あなたの雑な思考を大規模に可視化します。人間が悪いテストを書けば、いくつかの悪いテストが得られます。数百の作業項目を処理するエージェントパイプラインに悪い指示を与えると?数百の悪いテストが得られます。同じ悪い思考が、触れるすべてのものに増幅されるだけです。思考を修正すれば、出力も修正される。」
📖 Read the full source: r/ClaudeAI
👀 See Also

開発者がClaudeをコーディングパートナーとして使用してテキストベースゲーム「Track Star」を構築
ある開発者が、Claudeを主要なコーディングパートナーとして使い、数か月にわたる夜間や週末の作業でPython知識の不足を補いながら、テキストベースの陸上競技キャリアシミュレーションゲーム「Track Star」を構築しました。磨き上げられたデモ版が先週Steamでリリースされました。

Slack用OpenClawのセルフホスティング:3つの失敗モードとマネージドな代替案
ある開発者が、Slack用OpenClawのセルフホスティングに3度失敗した経験を記録しました。WebSocketの切断、API障害時の処理問題、トークンローテーションのサイレント失敗に直面した後、マネージドサービスであるSlackClaw.aiに切り替えました。

デザインスキル不要でデモ動画を作成:Claude CodeとRemotionを活用
ある開発者は、300〜1,000ドル、納期6〜10週間というデモ動画のコストを捻出できず、製品のローンチを数ヶ月延期していました。ある週末、彼はRemotion(Reactベースの動画生成ツール)とClaude Codeを活用し、独自の動画、イラスト、ランディングページコンポーネントを作成。その結果、リール動画で数千回の再生を達成しました。

Claude Codeの/insightコマンドは、実際の使用データから開発者のワークフローパターンを分析します。
個人向け財務管理iOSアプリを開発中のプログラマーが、Claude Codeの新機能「/insight」コマンドを活用し、22日間の使用状況を分析しました。その結果、529件のメッセージ、47,604行のコード、632ファイルの変更、146回のコミットというデータが集計されました。レポートでは「監査→一括修正パイプライン」のような効果的なパターンが特定され、デバッグループのような時間の無駄も指摘されています。