Gemma 4 対 Qwen 3.5 のブラインド評価結果(Claude Opus が審査員)

✍️ OpenClawRadar📅 公開日: April 15, 2026🔗 Source
Gemma 4 対 Qwen 3.5 のブラインド評価結果(Claude Opus が審査員)
Ad

Redditユーザーが、Claude Opus 4.6を採点審査員として使用し、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27Bモデルの三者間直接対決評価を実施しました。

評価の設定

テストでは、コード、推論、分析、コミュニケーション、メタアライメントの5カテゴリー(各カテゴリー6問ずつ)から合計30問を使用しました。すべてのモデルは、システムプロンプトの違いや温度設定を同じにし、同じ質問にブラインドで回答しました。Claude Opus 4.6は、構造化された評価基準を用いて、各回答を0〜10点で独立して採点し、ペアごとの比較ではなく回答ごとの絶対評価を行いました。評価は一貫性を優先するため単一の審査員(Opus 4.6)を使用しましたが、これは位置バイアスのリスクを伴います。総費用は4.50ドルでした。

結果

勝利数(質問ごとの最高得点):

  • Qwen 3.5 27B: 14勝 (46.7%)
  • Gemma 4 31B: 12勝 (40.0%)
  • Gemma 4 26B-A4B: 4勝 (13.3%)

平均スコア:

  • Gemma 4 31B: 8.82 (30評価)
  • Gemma 4 26B-A4B: 8.82 (28評価)
  • Qwen 3.5 27B: 8.17 (30評価)

Qwenはより多くの対戦で勝利しましたが、CODE-001、REASON-004、ANALYSIS-017の3問で0.0点を取ったため平均スコアは低くなりました。これらは、本当にひどい回答というより、フォーマットの失敗や回答拒否のように見えました。この3つのスコアを除くと、Qwenの平均は約9.08に跳ね上がり、3モデルの中で最高となります。

Ad

カテゴリー別内訳

  • コード: Gemma 4 31BとQwenが同点(各3勝)
  • 推論: Qwenが圧倒(6問中5勝)
  • 分析: Qwenが圧倒(6問中4勝)
  • コミュニケーション: Gemma 4 31Bが圧倒(6問中5勝)
  • メタアライメント: 三者で分かれた(2-2-2勝)

観察結果

  • Gemma 4 26B-A4B(MoEバリアント)は2問で完全にエラーを起こしました。動作した場合、そのスコアは密モデルの31Bとほぼ同じ8.82平均で一致しました。
  • Gemma 4 31Bは、重い内部連鎖思考が関与していると思われる複数回の5分間生成を含め、いくつかの異常に長い応答時間がありましたが、これはより良いスコアと相関しませんでした。
  • Qwen 3.5 27Bは平均して応答ごとに3〜5倍多くのトークンを生成し、冗長性のペナルティを生み出しましたが、審査員はこれを一貫して罰したり報いたりしているようには見えませんでした。

方法論に関する注意点

  • 30問は小さなサンプルであり、統計的有意性を主張するものではありません
  • 単一の審査員(Opus 4.6)を使用しているため、体系的バイアスがすべてのスコアに影響します
  • LLMを審査員として使用することには、冗長性バイアス、自己選好バイアス、位置バイアスなどの既知の問題があります
  • 質問は標準的なベンチマークからのものではなくオリジナルであり、評価者のバイアスを反映しています

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClaw 2026.4.29 破損 – 2026.2.6 へのダウングレード
News

OpenClaw 2026.4.29 破損 – 2026.2.6 へのダウングレード

OpenClawバージョン2026.4.29は、ランダムエラー、CLIの動作遅延、二重応答などの問題が発生しています。修正するには、バージョン2026.2.6にダウングレードしてください。

OpenClawRadar
卒業式でAIの激励演説に学生がブーイング、開発者の心情を反映
News

卒業式でAIの激励演説に学生がブーイング、開発者の心情を反映

今シーズンの複数の大学の卒業式で、卒業生たちがAIへの熱意を語るスピーカーにブーイングを浴びせ、AIの雇用や社会への影響に対する広範な不安を反映した。

OpenClawRadar
Anthropicが100万件のClaude会話を分析:6%が個人的ガイダンスを求め、お世辞率9%、Opus 4.7で改善
News

Anthropicが100万件のClaude会話を分析:6%が個人的ガイダンスを求め、お世辞率9%、Opus 4.7で改善

100万件のClaude会話の分析により、6%が個人的なアドバイスを求めており、人間関係における同調率が最も高い(25%)ことが判明。Opus 4.7とMythos Previewでは、合成トレーニングデータを使用して同調率を半分に削減。

OpenClawRadar
OpenClaw 2026.3.2 アップデートでエージェントツールがデフォルトで無効化されました
News

OpenClaw 2026.3.2 アップデートでエージェントツールがデフォルトで無効化されました

OpenClaw 2026.3.2はデフォルトで全てのエージェントツールの権限を無効化し、execやweb_fetchなどのツールが動作しなくなりました。修正にはopenclaw.jsonに設定を追加する必要があります。

OpenClawRadar