小型ローカルモデル7B未満のコーディングエージェント問題点

数週間にわたり、無料枠の小規模ローカルモデル（7B未満）と小規模クラウドモデルで実際のマルチファイルコーディングタスクを実行した結果、あるRedditユーザーが典型的なベンチマークノイズを超えた一貫した障害ポイントを記録しました。以下が実際に壊れる箇所です。

マークダウンフェンスが最も一般的な障害

システムプロンプトに「生のコードのみ出力、マークダウン書式なし」と指定しても、ほとんどのモデルは応答をトリプルバッククォートで囲みます。Qwen3.5:9bとGemma4:e4bは最も一貫して指示に従いますが、それでも時々問題が発生します。解決策はプロンプトの改善ではなく、デフォルトで後処理にてフェンスを除去することです。

7B未満では構造化出力は信頼できない

エージェントがタスクリストやアクションタイプにJSONを必要とする場合、小規模モデルはベンチマークが示すよりもはるかに頻繁に失敗します。ベンチマークは有効なJSONをテストしますが、実際の使用では複雑なマルチステップ指示とエッジケースが加わります。Gemma4:e4bはローカルモデルの中で最も信頼性が高く、Qwen3.5:9Bがそれに続きます。Codellamaは苦戦します。クラウドでは、Groq上のLlama 3.3 70Bは非常に安定しています。実用的な回避策：JSONを検証し、明示的な指示で一度再試行し、それでもダメなら散文からJSONを抽出する寛容なパーサーにフォールバックします。

モデルが間違ったファイルを編集する

小規模モデルに、類似名のプロジェクトマップを与えてvalidateTokenをverifyTokenにリネームするタスクを与えると、validateUserをリネームしたり、まったく間違ったファイルを変更したりする可能性があります。モデルはプロジェクトマップを提案ではなくヒントとして扱います。オーケストレーションレイヤーでの修正：ファイルパスが存在し、関数名が主張されたファイルにあることを検証します。不一致があればエラーをスローします——小規模モデルは自信満々に嘘をつきます。

質問 vs. アクションの分類

「utils.jsには何行ありますか？」という質問は読み取り専用であるべきです。しかし、実行部に編集モードしかない場合、答えを含めるためにファイルを編集してしまいます。修正策：プランナーは実行前にリクエストをアクションタイプに分類する必要があります。読み取り専用クエリは、ディスクに触れない別のコードパスにルーティングされます。