8つのAIコーディングモデルを実世界のTypeScript機能実装で比較

実世界でのAIコーディングモデル比較
ある開発者が、既存のTypeScriptプロジェクトで同じ実世界の機能を実装させることで、8つのAIコーディングモデルの実用的な比較を実施しました。目標は、人工的なベンチマークを超えて、実際のコードベースで作業する際のモデルの性能を確認することでした。
テスト設定
使用されたプロジェクトは、Opencode機能へのTelegramインターフェースを提供するgrammYフレームワークで構築されたオープンソースのTypeScriptボットであるOpenCode Telegram Botでした。このボットはi18nサポートと既存のテストカバレッジを持っています。
課題は、現在の作業セッションの名前を変更する/renameコマンドを実装することでした。この機能はアプリケーションの全レイヤーに触れ、複数のエッジケースの処理を必要とします。元の実装は元に戻されており、評価のためのクリーンなベースラインを提供していました。
各モデルは、2つのフェーズで同じプロンプトを受け取りました:最初は計画モード(コードベースを研究し、実装計画を立てる)、次にコーディングモードです。すべてのテストは、「思考」モードと推論を有効にしたOpencodeを使用して行われました。
テストされたモデル
- Claude 4.6 Sonnet(100万トークンあたり$3.00入力/$15.00出力)
- Claude 4.6 Opus($5.00/$25.00)
- GLM 5($1.00/$3.20)
- Kimi K2.5($0.60/$3.00)
- MiniMax M2.5($0.30/$1.20)
- GPT 5.3 Codex(high)($1.75/$14.00)
- GPT 5.4(high)($2.50/$15.00)
- Gemini 3.1 Pro(high)($2.00/$12.00)
Coding IndexとAgentic IndexのデータはArtificial Analysisから得られました。すべてのモデルは、OpenCodeチームからのプロバイダーであるOpenCode Zenを通じてアクセスされ、このツールとの互換性のためにモデルをテストしています。
評価方法論
4つの指標が使用されました:
- APIコスト($) - サブエージェントを含む、タスク中のすべてのAPI呼び出しの総コスト
- 実行時間(mm:ss) - モデルの総作業時間
- 実装の正確性(0-10) - 動作が要件とエッジケースにどれだけ一致しているか
- 技術的品質(0-10) - ソリューションのエンジニアリング品質
正確性と品質のスコアについては、既存の/rename実装を使用して、コマンド統合、メインフロー、エラー処理、キャンセル、i18n、ドキュメント、アーキテクチャ、状態管理、テスト、技術的負債をカバーする詳細な評価基準を導き出しました。評価は、構造化されたルーブリックに対してGPT-5.3 Codexによって実行され、複数回の実行で±0.5ポイント以内のばらつきが示されました。
主な発見
結果は、GPT-5.4(high)がAgentic Indexで69点中57点の最高の実装正確性スコアを達成したことを示しました。GLM 5は、100万トークンあたり$1.00/$3.20でCoding Indexが53点と、強力なコストパフォーマンス比を示しました。この実験は、中国の安価なオープンソースモデルが実用的なコーディングタスクにおいて独自モデルに近づいていることを明らかにしましたが、ベンチマークだけでは完全な状況は伝えられません。
📖 Read the full source: r/LocalLLaMA
👀 See Also

デザイン作業におけるClaude:毎回同じ好みの議論を繰り返すのを止める方法
クライアント案件でClaudeを使用している開発者が、中核的な問題を説明する:Claudeは却下されたデザイン決定を記憶せず、その結果、一般的な出力と一貫性のないブランド・アイデンティティが生じる。

JanはJan-v3-Baseモデル統合によるワンクリックOpenClawインストールを追加しました
Janは現在、OpenClawのワンクリックインストールをサポートし、Jan-v3-baseモデルに直接統合され、すべての操作をコンピューター上でローカルかつプライベートに保ちます。

AI機能:自動検証によるランタイムコード生成
AI Functionsは、実装コードの代わりに自然言語の仕様で関数を定義できるPythonライブラリです。実行時にLLMが生成したコードを実行し、失敗時に自動再試行をトリガーする事後条件で出力を検証します。

Claude Dispatch ベータ版:設定のコツと初期印象
ある開発者が、Mac MiniでClaudeのDispatchベータ版をセットアップした経験を共有。常時稼働の必要性、具体的な成功基準の設定、Computer Useを使用する際の積極的な権限付与の重要性を強調している。