8つのAIコーディングモデル比較：TypeScript実装でGPT-5.4が最高

実世界でのAIコーディングモデル比較

ある開発者が、既存のTypeScriptプロジェクトで同じ実世界の機能を実装させることで、8つのAIコーディングモデルの実用的な比較を実施しました。目標は、人工的なベンチマークを超えて、実際のコードベースで作業する際のモデルの性能を確認することでした。

テスト設定

使用されたプロジェクトは、Opencode機能へのTelegramインターフェースを提供するgrammYフレームワークで構築されたオープンソースのTypeScriptボットであるOpenCode Telegram Botでした。このボットはi18nサポートと既存のテストカバレッジを持っています。

課題は、現在の作業セッションの名前を変更する/renameコマンドを実装することでした。この機能はアプリケーションの全レイヤーに触れ、複数のエッジケースの処理を必要とします。元の実装は元に戻されており、評価のためのクリーンなベースラインを提供していました。

各モデルは、2つのフェーズで同じプロンプトを受け取りました：最初は計画モード（コードベースを研究し、実装計画を立てる）、次にコーディングモードです。すべてのテストは、「思考」モードと推論を有効にしたOpencodeを使用して行われました。

テストされたモデル

Claude 4.6 Sonnet（100万トークンあたり$3.00入力/$15.00出力）
Claude 4.6 Opus（$5.00/$25.00）
GLM 5（$1.00/$3.20）
Kimi K2.5（$0.60/$3.00）
MiniMax M2.5（$0.30/$1.20）
GPT 5.3 Codex（high）（$1.75/$14.00）
GPT 5.4（high）（$2.50/$15.00）
Gemini 3.1 Pro（high）（$2.00/$12.00）

Coding IndexとAgentic IndexのデータはArtificial Analysisから得られました。すべてのモデルは、OpenCodeチームからのプロバイダーであるOpenCode Zenを通じてアクセスされ、このツールとの互換性のためにモデルをテストしています。

評価方法論

4つの指標が使用されました：

APIコスト（$） - サブエージェントを含む、タスク中のすべてのAPI呼び出しの総コスト
実行時間（mm:ss） - モデルの総作業時間
実装の正確性（0-10） - 動作が要件とエッジケースにどれだけ一致しているか
技術的品質（0-10） - ソリューションのエンジニアリング品質

正確性と品質のスコアについては、既存の/rename実装を使用して、コマンド統合、メインフロー、エラー処理、キャンセル、i18n、ドキュメント、アーキテクチャ、状態管理、テスト、技術的負債をカバーする詳細な評価基準を導き出しました。評価は、構造化されたルーブリックに対してGPT-5.3 Codexによって実行され、複数回の実行で±0.5ポイント以内のばらつきが示されました。

主な発見

結果は、GPT-5.4（high）がAgentic Indexで69点中57点の最高の実装正確性スコアを達成したことを示しました。GLM 5は、100万トークンあたり$1.00/$3.20でCoding Indexが53点と、強力なコストパフォーマンス比を示しました。この実験は、中国の安価なオープンソースモデルが実用的なコーディングタスクにおいて独自モデルに近づいていることを明らかにしましたが、ベンチマークだけでは完全な状況は伝えられません。

📖 Read the full source: r/LocalLLaMA