Qwen 3 8B: 6勝13タスクで4倍大モデル凌駕

評価結果

「The Multivac」と呼ばれるブラインドピア評価システムが、10の小型言語モデルを対象に13の難易度の高いフロンティアレベルの質問でテストしました。GPT-5.4とClaude Opus 4.6にも同じ難易度レベルが使用されました。モデルはどの応答がどのモデルによるものかを知らず、順位はピアコンセンサスから計算されました。

主な発見

Qwen 3 8B（8Bパラメータ）は以下を達成しました：

13評価中6回の1位獲得
13タスク中12タスクでトップ3入り
平均スコア9.40
最下位は5位

このパフォーマンスは、以下のような大幅に大きなパラメータ数を有するモデルを上回りました：

Gemma 3 27B（27Bパラメータ）：3勝、11回トップ3入り、平均9.33
Kimi K2.5（32B/1T MoE）：3勝、5回トップ3入り、平均8.78
Qwen 3 32B（32Bパラメータ）：2勝、5回トップ3入り、平均8.40

タスク別パフォーマンス

コードタスクにおいて、Qwen 3 8Bは以下の順位を獲得しました：

Go並行処理デバッグで1位（9.65）
分散ロック分析で1位（9.33）
SQL最適化で同率1位（9.66）

推論タスクにおいては：

シンプソンのパラドックスで1位（9.51）
投資意思決定理論で1位（9.63）
ベイジアン診断で2位（9.53）

注目すべき観察事項

Qwen 3 32Bは、分散ロックデバッグタスク（EVAL-20260315-043330）において顕著なパフォーマンス低下を示し、他の全モデルが5.5以上を記録した中で1.00/10点しか獲得できませんでした。8Bモデルは同一タスクで9.33点を記録しました。原因は不明ですが、OpenRouterのルーティング、量子化アーティファクト、または真の失敗モードに関連している可能性があります。

技術的には32Bアクティブ/1T MoEモデルであるKimi K2.5は、502デバッグタスク（9.57）、アローの投票定理（9.18）、生存者バイアス（9.63）を含む3つの評価で優勝しました。

Llama 3.1 8Bは、13評価中10回で最下位または下から2位となり、平均スコア7.51を記録しました。これは、同じパラメータ数にもかかわらず、Qwen 3 8B（9.40）との間に大きなギャップがあることを示しています。

方法論に関する注記

この評価では、10のモデルが同じ質問に応答し、その後各モデルが10の応答すべてを評価する（評価ごとに合計100回の判定、自己判定を除く）ブラインドピアシステムが使用されました。著者は、AIがAIを評価することには循環性の問題があり、スコアは真実ではなくピアコンセンサスを測定しているという真の限界を指摘しています。相関関係を測定するための人間ベースライン研究が開発中です。

📖 Read the full source: r/LocalLLaMA