Qwen 3 8Bは、困難なタスクにおけるブラインドピア評価において、より大きなモデルを凌駕しています。

✍️ OpenClawRadar📅 公開日: March 17, 2026🔗 Source
Qwen 3 8Bは、困難なタスクにおけるブラインドピア評価において、より大きなモデルを凌駕しています。
Ad

評価結果

「The Multivac」と呼ばれるブラインドピア評価システムが、10の小型言語モデルを対象に13の難易度の高いフロンティアレベルの質問でテストしました。GPT-5.4とClaude Opus 4.6にも同じ難易度レベルが使用されました。モデルはどの応答がどのモデルによるものかを知らず、順位はピアコンセンサスから計算されました。

主な発見

Qwen 3 8B(8Bパラメータ)は以下を達成しました:

  • 13評価中6回の1位獲得
  • 13タスク中12タスクでトップ3入り
  • 平均スコア9.40
  • 最下位は5位

このパフォーマンスは、以下のような大幅に大きなパラメータ数を有するモデルを上回りました:

  • Gemma 3 27B(27Bパラメータ):3勝、11回トップ3入り、平均9.33
  • Kimi K2.5(32B/1T MoE):3勝、5回トップ3入り、平均8.78
  • Qwen 3 32B(32Bパラメータ):2勝、5回トップ3入り、平均8.40

タスク別パフォーマンス

コードタスクにおいて、Qwen 3 8Bは以下の順位を獲得しました:

  • Go並行処理デバッグで1位(9.65)
  • 分散ロック分析で1位(9.33)
  • SQL最適化で同率1位(9.66)

推論タスクにおいては:

  • シンプソンのパラドックスで1位(9.51)
  • 投資意思決定理論で1位(9.63)
  • ベイジアン診断で2位(9.53)
Ad

注目すべき観察事項

Qwen 3 32Bは、分散ロックデバッグタスク(EVAL-20260315-043330)において顕著なパフォーマンス低下を示し、他の全モデルが5.5以上を記録した中で1.00/10点しか獲得できませんでした。8Bモデルは同一タスクで9.33点を記録しました。原因は不明ですが、OpenRouterのルーティング、量子化アーティファクト、または真の失敗モードに関連している可能性があります。

技術的には32Bアクティブ/1T MoEモデルであるKimi K2.5は、502デバッグタスク(9.57)、アローの投票定理(9.18)、生存者バイアス(9.63)を含む3つの評価で優勝しました。

Llama 3.1 8Bは、13評価中10回で最下位または下から2位となり、平均スコア7.51を記録しました。これは、同じパラメータ数にもかかわらず、Qwen 3 8B(9.40)との間に大きなギャップがあることを示しています。

方法論に関する注記

この評価では、10のモデルが同じ質問に応答し、その後各モデルが10の応答すべてを評価する(評価ごとに合計100回の判定、自己判定を除く)ブラインドピアシステムが使用されました。著者は、AIがAIを評価することには循環性の問題があり、スコアは真実ではなくピアコンセンサスを測定しているという真の限界を指摘しています。相関関係を測定するための人間ベースライン研究が開発中です。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code v2.1.101では、チームオンボーディング機能の追加、エンタープライズTLSサポートの実装、メモリリークの修正が行われました。
News

Claude Code v2.1.101では、チームオンボーディング機能の追加、エンタープライズTLSサポートの実装、メモリリークの修正が行われました。

Claude Code v2.1.101では、チームメンバーのランプアップガイドを生成する/team-onboardingコマンドの追加、エンタープライズTLSプロキシ用のOS CA証明書ストアのデフォルト信頼設定、長いセッションでのメモリリーク修正など、25以上の改善とバグ修正が行われました。

OpenClawRadar
AIコーディングエージェントはワークフローを断片化し注意を奪う、開発者が警告
News

AIコーディングエージェントはワークフローを断片化し注意を奪う、開発者が警告

12年の経験を持つウェブ開発者が、Claude Codeを毎日使うことでマイクロな中断が発生し、集中力の低下や精神的な疲労につながるが、生産性の測定可能な向上は見られないと報告しています。

OpenClawRadar
Claude CodeがAnthropicのProプランから削除され、現在はMaxプランのみで利用可能となりました。
News

Claude CodeがAnthropicのProプランから削除され、現在はMaxプランのみで利用可能となりました。

Anthropicは、Claude CodeをProプラン(月額17〜20ドル)から削除し、月額100ドルから始まるMaxプランでのみ利用可能にしました。Proプランには現在、Claude Cowork、無制限のプロジェクト、リサーチ機能、より多くのClaudeモデルへのアクセスが含まれています。

OpenClawRadar
ディーザーは、日々アップロードされる音楽の44%がAIによって生成されたものであると報告しています。
News

ディーザーは、日々アップロードされる音楽の44%がAIによって生成されたものであると報告しています。

Deezerは、AI生成トラックがプラットフォームにアップロードされる新曲全体の44%を占め、1日あたり約75,000曲のAIトラックがアップロードされていると発表しました。同社の検出システムはこれらのトラックにタグを付け、レコメンデーションから除外し、詐欺行為を理由にAIストリームの85%を収益化対象外としています。

OpenClawRadar