Gemma 4 vs Qwen 3.5: ブラインド評価結果（Claude Opus審査）

Redditユーザーが、Claude Opus 4.6を採点審査員として使用し、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27Bモデルの三者間直接対決評価を実施しました。

評価の設定

テストでは、コード、推論、分析、コミュニケーション、メタアライメントの5カテゴリー（各カテゴリー6問ずつ）から合計30問を使用しました。すべてのモデルは、システムプロンプトの違いや温度設定を同じにし、同じ質問にブラインドで回答しました。Claude Opus 4.6は、構造化された評価基準を用いて、各回答を0〜10点で独立して採点し、ペアごとの比較ではなく回答ごとの絶対評価を行いました。評価は一貫性を優先するため単一の審査員（Opus 4.6）を使用しましたが、これは位置バイアスのリスクを伴います。総費用は4.50ドルでした。

結果

勝利数（質問ごとの最高得点）：

Qwen 3.5 27B: 14勝 (46.7%)
Gemma 4 31B: 12勝 (40.0%)
Gemma 4 26B-A4B: 4勝 (13.3%)

平均スコア：

Gemma 4 31B: 8.82 (30評価)
Gemma 4 26B-A4B: 8.82 (28評価)
Qwen 3.5 27B: 8.17 (30評価)

Qwenはより多くの対戦で勝利しましたが、CODE-001、REASON-004、ANALYSIS-017の3問で0.0点を取ったため平均スコアは低くなりました。これらは、本当にひどい回答というより、フォーマットの失敗や回答拒否のように見えました。この3つのスコアを除くと、Qwenの平均は約9.08に跳ね上がり、3モデルの中で最高となります。

カテゴリー別内訳

コード： Gemma 4 31BとQwenが同点（各3勝）
推論： Qwenが圧倒（6問中5勝）
分析： Qwenが圧倒（6問中4勝）
コミュニケーション： Gemma 4 31Bが圧倒（6問中5勝）
メタアライメント： 三者で分かれた（2-2-2勝）

観察結果

Gemma 4 26B-A4B（MoEバリアント）は2問で完全にエラーを起こしました。動作した場合、そのスコアは密モデルの31Bとほぼ同じ8.82平均で一致しました。
Gemma 4 31Bは、重い内部連鎖思考が関与していると思われる複数回の5分間生成を含め、いくつかの異常に長い応答時間がありましたが、これはより良いスコアと相関しませんでした。
Qwen 3.5 27Bは平均して応答ごとに3〜5倍多くのトークンを生成し、冗長性のペナルティを生み出しましたが、審査員はこれを一貫して罰したり報いたりしているようには見えませんでした。