Nemotron 3 4B vs Qwen 3.5 4B: Schlechter bei Benchmarks

Benchmark-Ergebnisse: Qwen 3.5 4B übertrifft Nemotron 3 4B

Ein detaillierter Benchmark-Vergleich zwischen Qwen 3.5 4B Q8 und Nemotron 3 4B Q8 zeigt signifikante Leistungsunterschiede bei mathematischen Denkaufgaben und strukturierten Ausgabeproblemen.

Testmethodik

Der Benchmark bestand aus fünf anspruchsvollen Teilaufgaben, die mathematische Beweise, modulare Arithmetik, Algorithmusentwurf und mehrsprachige Textgenerierung erforderten, alle in gültigem JSON-Format verpackt. Die genaue Aufforderung verlangte:

Definition und Auswertung von S(n) = Σ(-1)^k C(n,k)/(k+1)^2 mit geschlossener Form in Bezug auf H_{n+1}, Auswertung bei n=2026 und 8-zeiliger Beweis unter Verwendung von Integralen
Berechnung von T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] von k=1 bis 2026 mit modularer Begründung
Möbius- + Inklusions-Exklusions-Algorithmus zum Zählen teilerfremder Paare in einem dynamischen Array mit Pseudocode in genau 14 Zeilen (Variablennamen ≤8 Zeichen)
Berechnung von C(4052, 2026) mod 7 unter Verwendung des Lucas-Theorems mit Basis-7-Umwandlung
Portugiesischer Absatz von genau 47 Wörtern, der "Möbius", "inclusão-exclusão" und "Lucas" enthält und mit "fim." endet

Ergebnisaufschlüsselung

Qwen 3.5 4B Q8 (korrekt): Erzeugte gültiges JSON mit allen Teilaufgaben korrekt abgeschlossen. Die mathematischen Beweise waren präzise, einschließlich:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (inkorrekt): Konnte keine korrekte Argumentation und strukturierte Ausgabe liefern. Probleme umfassten:

Verfälschte Integral-Schritte mit falschen Substitutionen im mathematischen Beweis
Unvollständiger Pseudocode mit Platzhalter-Rautenzeichen statt der erforderlichen 14 Zeilen
Abgebrochener portugiesischer Absatz, der mitten im Satz endet

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Haupterkenntnis

Der Benchmark zeigt, dass der architektonische Vorteil von Nemotron 3 4B – die Unterstützung größerer Kontextfenster – sich nicht in bessere Denkfähigkeiten innerhalb dieses Kontexts übersetzt. Während Nemotron theoretisch erweiterte Kontextkapazität bietet, konnte es komplexe mathematische Argumentation und strukturierte Ausgabegenerierung nicht ausführen, die Qwen 3.5 4B korrekt bewältigte.

📖 Read the full source: r/LocalLLaMA

Nemotron 3 4B schneidet in anspruchsvollen Benchmarks schlechter ab als Qwen 3.5 4B.

Benchmark-Ergebnisse: Qwen 3.5 4B übertrifft Nemotron 3 4B

Testmethodik

Ergebnisaufschlüsselung

Haupterkenntnis

👀 Siehe auch

Der Orchestrator: Warum die Absicht den Prozess überdauern sollte

KI-Ingenieure sind nicht sicher davor, durch KI ersetzt zu werden

Nvidia entwickelt angeblich das Open-Source-Tool NemoClaw, um mit OpenClaw zu konkurrieren.

Killer-Funktionen von OpenClaw und die Risiken (Mit Lösungen)