12モデル比較: GPT-5.5 vs Claude Opus 4.7 vs Qwen 3.6 Plus 車運転ベンチマーク

ある開発者が、同じ単一ファイルのCanvasプロンプトを12のモデルで実行し、オープンソースモデルと最先端モデルの能力を、現実的な側面図の車の運転シーンで比較しました。タスクは、ライブラリや外部アセットなしで、パララックス背景、回転する車輪、微妙なボディモーション、映画的な照明、シームレスなループを備えた単一のスタンドアロンHTMLファイルです。テストハーネスはOpenCodeOrchestraで、結果はoco-canvas-car-scene-compareで公開されています。

テストされたモデル

各モデルは、最高の思考/努力設定で隔離されたOrchestratorで実行されました。リストには、GPT-5.5 xhigh、GPT-5.4 xhigh、Claude Opus 4.7（最大努力）、Claude Opus 4.6（最大努力）、Claude Sonnet 4.6（高努力）、Kimi K2.6、DeepSeek V4 Pro、DeepSeek V4 Flash、GLM-5.1、MiniMax M2.7、Qwen 3.6 Plus、Grok 4.3が含まれます。トークン/秒と生成時間は測定されていません。

主な発見

一部のモデルは内部でオーディターモデルを使用していましたが、使用しなかったモデルもありました。
明確な勝者と曖昧な結果がギャラリーで確認できます。
MiMo V2.5 Proは、OpenCode Goサブスクリプションの課金問題により除外されました。

ギャラリーページでは、各モデルの出力を横並びで比較できます。ソースコードはGitHubのAidenGeunGeun/oco-canvas-car-scene-compareにあります。

📖 Read the full source: r/LocalLLaMA

オープンソース対フロンティアモデル: シングルファイルキャンバスカーレーンベンチマーク

テストされたモデル

主な発見

👀 See Also

Metaがコンクリート配合設計用のAIモデル「BOxCrete」をリリース

オートリサーチにより、SSDストリーミングを介してM5 Max上でQwen3.5-397Bが20.34 tok/sを達成

Kimi K2.6 vs Claude Opus 4.7: Minetest Bounty Board Modを使った実機テスト

オープンクロークリエイタークレジットクロードコードエンジニアアンソロピックサブスクリプション禁止の中

テストされたモデル

主な発見

👀 See Also

Metaがコンクリート配合設計用のAIモデル「BOxCrete」をリリース

オートリサーチにより、SSDストリーミングを介してM5 Max上でQwen3.5-397Bが20.34 tok/sを達成

Kimi K2.6 vs Claude Opus 4.7: Minetest Bounty Board Modを使った実機テスト

オープンクロー クリエイター クレジット クロード コードエンジニア アンソロピック サブスクリプション禁止の中

オープンクロークリエイタークレジットクロードコードエンジニアアンソロピックサブスクリプション禁止の中