オープンソースLLMが取引戦略生成でClaude Opus 4.6に勝利、コスト10分の1

r/LocalLLaMAのRedditユーザーが、取引戦略生成における性能評価のために10種類の異なる大規模言語モデルの比較テストを実施しました。その結果は、商用LLMのコストパフォーマンス関係に関する通念に疑問を投げかけています。

テスト方法とモデル

ユーザーは10種類のLLMに同じプロンプト「最高の取引戦略を作成せよ」を入力して起動しました。テスト対象モデルには以下が含まれます：

Claude Opus 4.6
Gemini 3、3.1 Pro、GPT-5.2
Gemini Flash 3、GPT-5-mini、Kimi K2.5、Minimax 2.5

結果の一貫性を確認するため、テストは3回実施されました。

主な発見

情報源によると：

Minimax 2.5とGemini 3.1がリーダーボードの上位を占めた
Anthropicのモデル（Opus 4.6を含む）の性能は「物足りない」もので、上位4位以内に入れなかった
Claude Opus 4.6は競合モデルより10倍高価だった
オープンソースモデルはAnthropicやGoogleのモデルより大幅に遅かった

ユーザーは結果について当初懐疑的だったことを認め、「正直に言うと、最初にこれを実行した時は結果を信じられなかった」と述べています。検証後、彼らは「結果は正当なものだ」と結論付けました。

実用的な意味合い

AIコーディングエージェントを使用する開発者にとって、これは取引戦略生成のような特定の専門タスクにおいて、オープンソースモデルが大幅に低コストで優れた性能を提供する可能性があることを示唆しています。主なトレードオフとして指摘されているのは速度であり、オープンソースモデルはAnthropicやGoogleの商用代替モデルより「大幅に遅い」と表現されています。

ユーザーの結論は率直なものでした：「それ以外の点では、このタスクにOpusやSonnetを使用する十分な理由はない」

📖 Read the full source: r/LocalLLaMA