AIエージェント×TDD開発フロー：Qwen3.5-27Bでテスト駆動

AIエージェントを用いた開発ワークフロー

開発者が、テスト駆動開発の手法を用いたAIコーディングエージェントによるウェブサイト開発へのアプローチを概説しています。彼らは、業務プロジェクトにはClaude Codeを、プライベートプロジェクトにはローカルモデル、具体的には2xRTX 3090 GPU上でllama.cppを実行するQwen3.5-27B上で動作するQwen Codeを使用しています。

プロジェクト初期セットアップ

プロジェクトの開始時、彼らは基本的なモジュールを実装します：

基本的なDBスキーマ
基本的な認証API
UIルーティング
UIの基本レイアウト
基本的なAPI（管理者とユーザー）
基本的なAPI/E2Eテスト（手動またはAIによって記述）
コーディングエージェント用のコンテキストファイル（AGENTS.md、CLAUDE.md）

反復的開発プロセス

セットアップ後、反復プロセスが開始されます：

機能のAPI/E2Eテストの詳細な仕様をマークダウンで記述する
マークダウンのテスト記述からAPI/E2Eテストを生成する
テストを実行できるコーディングエージェントセッションを開始する
テストが合格するまで、エージェントに機能の実装を依頼する

モデルの能力とトレードオフ

開発者は、Claudeのようなより能力の高いモデルでは、単純なウェブサイトの場合マークダウンファイルを完全にスキップできる一方、Qwen3.5-27Bには異なる閾値があると指摘しています。能力の低いモデルでは、特定のファイルに触れないように指示したり、特定のラッパーのみを使用するように指示するなど、失敗モードを軽減するためにより具体的な指示が必要です。

彼らは、コードがテストでカバーされ、機能するのであれば、開発者はコードのパターンや品質にこだわるべきではないと仮説を立てており、AIエージェントを、AIサブスクリプションのコストで10〜100人のジュニア/ミドル開発者を管理することに例えています。

ローカルモデルの詳細

2xRTX3090で実行されるローカルモデルには、parallel = 1およびフルコンテキストでQwen3.5-27B-GGUF-Q8_0を使用しており、これはエージェントセッションが早期に自動圧縮されないために重要であると考えています。彼らは、能力の低いモデルはE2Eテストと望ましい実装をより明確に表現することを強いる一方、Claudeは設計上の選択を自動的に埋めるが、コントロールの喪失につながる可能性があると指摘しています。

コーディングTDDループの実装

開発者は、彼らのコーディングTDDループの草案を提供しています：

外側ループ開始: コマンド `pytest tests/ -x` を使用してすべてのpytestテストを実行し、失敗がない場合はそこで終了する。デフォルトのログレベルは警告なので、出力はあまり多くない
すべてが合格した場合; 外側ループを終了する; 何かが失敗した場合、失敗したテスト名を抽出する
完全なログで失敗したテスト名を実行する。例: `pytest tests/../test_first_failing_test.py --log-level DEBUG` そして、テストの出力をファイルに収集する
`egrep -i -C 10 '(error|fail)' <fail` で 'error'/'fail' 文字列の近くの行を抽出する

このアプローチは、AIエージェントを用いたTDDの実用的な実装を表しており、自動化とコードベースのコントロールを維持するために必要な監視のバランスを取っています。

📖 Read the full source: r/LocalLLaMA