オープンソース対フロンティアモデル: シングルファイルキャンバスカーレーンベンチマーク

ある開発者が、同じ単一ファイルのCanvasプロンプトを12のモデルで実行し、オープンソースモデルと最先端モデルの能力を、現実的な側面図の車の運転シーンで比較しました。タスクは、ライブラリや外部アセットなしで、パララックス背景、回転する車輪、微妙なボディモーション、映画的な照明、シームレスなループを備えた単一のスタンドアロンHTMLファイルです。テストハーネスはOpenCodeOrchestraで、結果はoco-canvas-car-scene-compareで公開されています。
テストされたモデル
各モデルは、最高の思考/努力設定で隔離されたOrchestratorで実行されました。リストには、GPT-5.5 xhigh、GPT-5.4 xhigh、Claude Opus 4.7(最大努力)、Claude Opus 4.6(最大努力)、Claude Sonnet 4.6(高努力)、Kimi K2.6、DeepSeek V4 Pro、DeepSeek V4 Flash、GLM-5.1、MiniMax M2.7、Qwen 3.6 Plus、Grok 4.3が含まれます。トークン/秒と生成時間は測定されていません。
主な発見
- 一部のモデルは内部でオーディターモデルを使用していましたが、使用しなかったモデルもありました。
- 明確な勝者と曖昧な結果がギャラリーで確認できます。
- MiMo V2.5 Proは、OpenCode Goサブスクリプションの課金問題により除外されました。
ギャラリーページでは、各モデルの出力を横並びで比較できます。ソースコードはGitHubのAidenGeunGeun/oco-canvas-car-scene-compareにあります。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Mistralのオープンウェイト戦略:ベンチマークではなく主権に基づく140億ドルの評価
Mistralは、米国と中国のテクノロジーから独立したAIを求める政府や企業向けにオープンウェイトモデルを提供することで、140億ドルのAI帝国を築いた。2025年の収益は2億ドルに達し、2026年12月までに月間8000万ドルを目標としている。

主要AIモデルに対するQwen 3.5モデルのベンチマーク比較
ベンチマーク比較ウェブサイトには、Qwen 3.5モデル(122B、35B、27B、397B)とGPT-5.2、Claude 4.5 Opus、Gemini-3 Proなどのモデルを比較した検証済みスコアと対戦形式のインフォグラフィックが掲載されています。

簡単なデプロイ:Open Claw向け新ワンクリックAWSセットアップをリリース
Open Clawの愛好家たちが今、祝う理由があります。新たなワンクリックAWSデプロイツールがOpen Clawのセットアッププロセスを簡素化し、開発者や趣味で使う人々にとってよりアクセスしやすくなりました。

Anthropic、ChatGPT/GeminiからClaudeへの切り替えにメモリ移行機能を追加
Anthropicの新しいメモリインポート機能により、ユーザーはChatGPT、Gemini、その他のAIからClaudeへ、好み、プロジェクト、コンテキスト、作業スタイルを約2回のコピー&ペーストで転送でき、一から再トレーニングする必要がなくなります。