Minimax 2.5やGemini 3.1がClaude Opus 4.6を上回る取引戦略ベンチマーク結果

Redditユーザーが、10種類の異なる大規模言語モデルの取引戦略開発能力を比較するベンチマークを実施しました。結果は、低価格モデルが一貫して高価な選択肢を上回り、Claude Opus 4.6は競合他社の10倍のコストにもかかわらず、トップ4に入ることができませんでした。

テスト対象モデル

Claude Opus 4.6
Gemini 3
Gemini 3.1 Pro
GPT-5.2
Gemini Flash 3
GPT-5-mini
Kimi K2.5
Minimax 2.5

主な発見

このベンチマークでは、すべてのモデルに同じプロンプトを使用して「最高の取引戦略を作成する」よう依頼しました。Minimax 2.5やGemini 3.1などのモデルがリーダーボードの上位を占め、一方でAnthropicのモデルは比較して低いパフォーマンスを示しました。Kimi K2.5は、Claudeの10分の1のコストで、この競争においてClaudeを圧倒しました。

実験は一貫した結果を確保するために3回実施されました。著者は、コーディングが得意であることが、戦略開発のような他のタスクにも必ずしも優れていることを意味しないと指摘しています。

この種の専門的なベンチマークは、一般的なコーディング支援を超えた特定のタスクのためにAIモデルを選択する必要がある開発者にとって有用です。結果は、モデル選択が一般的な評判や価格だけでなく、タスク固有に基づくべきであることを示唆しています。

📖 完全なソースを読む: r/ClaudeAI