Nemotron 3 4B vs Qwen 3.5 4B: ベンチマーク比較結果

ベンチマーク結果: Qwen 3.5 4BがNemotron 3 4Bを上回る

Qwen 3.5 4B Q8とNemotron 3 4B Q8の詳細なベンチマーク比較により、数学的推論と構造化出力タスクにおいて顕著な性能差が明らかになりました。

テスト方法論

ベンチマークは、数学的証明、モジュラー演算、アルゴリズム設計、多言語テキスト生成を要求する5つの厳しいサブタスクで構成され、すべて有効なJSON形式でラップされていました。具体的なプロンプトは以下の内容を要求しました:

S(n) = Σ(-1)^k C(n,k)/(k+1)^2の定義と評価（H_{n+1}を用いた閉形式）、n=2026での評価、積分を用いた8行の証明
T = Σ[floor((17k+8)/29) - floor((17k-4)/29)]の計算（k=1から2026まで、モジュラー正当化付き）
動的配列内の互いに素なペアを数えるためのメビウス関数＋包除原理アルゴリズム（変数名は8文字以内、正確に14行の擬似コード）
ルーカスの定理と7進数変換を用いたC(4052, 2026) mod 7の計算
「Möbius」「inclusão-exclusão」「Lucas」を含み、「fim.」で終わる正確に47語のポルトガル語段落

結果の詳細

Qwen 3.5 4B Q8（正解）: すべてのサブタスクが正しく完了した有効なJSONを生成しました。数学的証明は正確で、以下を含みました:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8（不正解）: 正しい推論と構造化された出力を生成できませんでした。問題点は以下を含みました:

数学的証明における誤った置換を含む乱れた積分ステップ
必要な14行の代わりにプレースホルダーのハッシュ記号を含む不完全な擬似コード
途中で終了したポルトガル語段落

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

主要な発見

このベンチマークは、Nemotron 3 4Bのアーキテクチャ上の利点（より大きなコンテキストウィンドウのサポート）が、そのコンテキスト内での優れた推論能力にはつながらないことを明らかにしています。Nemotronは理論的には拡張されたコンテキスト容量を提供しますが、Qwen 3.5 4Bが正しく処理した複雑な数学的推論と構造化出力生成を実行できませんでした。

📖 Read the full source: r/LocalLLaMA