Nemotron 3 4B schneidet in anspruchsvollen Benchmarks schlechter ab als Qwen 3.5 4B.

✍️ OpenClawRadar📅 Veröffentlicht: 19. März 2026🔗 Source
Nemotron 3 4B schneidet in anspruchsvollen Benchmarks schlechter ab als Qwen 3.5 4B.
Ad

Benchmark-Ergebnisse: Qwen 3.5 4B übertrifft Nemotron 3 4B

Ein detaillierter Benchmark-Vergleich zwischen Qwen 3.5 4B Q8 und Nemotron 3 4B Q8 zeigt signifikante Leistungsunterschiede bei mathematischen Denkaufgaben und strukturierten Ausgabeproblemen.

Testmethodik

Der Benchmark bestand aus fünf anspruchsvollen Teilaufgaben, die mathematische Beweise, modulare Arithmetik, Algorithmusentwurf und mehrsprachige Textgenerierung erforderten, alle in gültigem JSON-Format verpackt. Die genaue Aufforderung verlangte:

  • Definition und Auswertung von S(n) = Σ(-1)^k C(n,k)/(k+1)^2 mit geschlossener Form in Bezug auf H_{n+1}, Auswertung bei n=2026 und 8-zeiliger Beweis unter Verwendung von Integralen
  • Berechnung von T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] von k=1 bis 2026 mit modularer Begründung
  • Möbius- + Inklusions-Exklusions-Algorithmus zum Zählen teilerfremder Paare in einem dynamischen Array mit Pseudocode in genau 14 Zeilen (Variablennamen ≤8 Zeichen)
  • Berechnung von C(4052, 2026) mod 7 unter Verwendung des Lucas-Theorems mit Basis-7-Umwandlung
  • Portugiesischer Absatz von genau 47 Wörtern, der "Möbius", "inclusão-exclusão" und "Lucas" enthält und mit "fim." endet
Ad

Ergebnisaufschlüsselung

Qwen 3.5 4B Q8 (korrekt): Erzeugte gültiges JSON mit allen Teilaufgaben korrekt abgeschlossen. Die mathematischen Beweise waren präzise, einschließlich:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (inkorrekt): Konnte keine korrekte Argumentation und strukturierte Ausgabe liefern. Probleme umfassten:

  • Verfälschte Integral-Schritte mit falschen Substitutionen im mathematischen Beweis
  • Unvollständiger Pseudocode mit Platzhalter-Rautenzeichen statt der erforderlichen 14 Zeilen
  • Abgebrochener portugiesischer Absatz, der mitten im Satz endet
{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Haupterkenntnis

Der Benchmark zeigt, dass der architektonische Vorteil von Nemotron 3 4B – die Unterstützung größerer Kontextfenster – sich nicht in bessere Denkfähigkeiten innerhalb dieses Kontexts übersetzt. Während Nemotron theoretisch erweiterte Kontextkapazität bietet, konnte es komplexe mathematische Argumentation und strukturierte Ausgabegenerierung nicht ausführen, die Qwen 3.5 4B korrekt bewältigte.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Melbourne Psychiater lehnt neue Patienten ab, die KI-Notizen nicht zustimmen
Nachrichten

Melbourne Psychiater lehnt neue Patienten ab, die KI-Notizen nicht zustimmen

Ein Psychiater in Melbourne verlangt von neuen Patienten die Zustimmung zur KI-Transkription von Sitzungen, andernfalls werden sie an andere Anbieter verwiesen – dies wirft Bedenken hinsichtlich Datensicherheit und Genauigkeit auf.

OpenClawRadar
Claude Code 2.1.136: Aktionssicherheit, harte Ablehnungsregeln und Sicherheitsmonitor
Nachrichten

Claude Code 2.1.136: Aktionssicherheit, harte Ablehnungsregeln und Sicherheitsmonitor

Claude Code CC 2.1.136 führt Aktionssicherheit und wahrheitsgemäße Berichterstattung ein, führt hard_deny als vierte Kategorie für benutzerdefinierte Regeln ein und teilt Sicherheitsblockaden in unbedingte Hardblocks und durch den Benutzer autorisierbare Softblocks auf.

OpenClawRadar
Anthropic übernimmt Stainless für über 300 Millionen US-Dollar – jetzt besitzt es den dominierenden MCP-Server-Generator
Nachrichten

Anthropic übernimmt Stainless für über 300 Millionen US-Dollar – jetzt besitzt es den dominierenden MCP-Server-Generator

Anthropic kaufte den SDK-Generator Stainless für über 300 Millionen Dollar. Stainless generiert die meisten produktiven MCP-Server aus OpenAPI-Spezifikationen. Das gehostete Produkt wird eingestellt; seit Montag werden keine neuen Anmeldungen mehr angenommen.

OpenClawRadar
OpenRouters Heiler-Alpha-Stealth-Modell scheint eine unveröffentlichte Variante von Qwen 3.5-Omni zu sein.
Nachrichten

OpenRouters Heiler-Alpha-Stealth-Modell scheint eine unveröffentlichte Variante von Qwen 3.5-Omni zu sein.

OpenRouter hat ein kostenloses anonymes omni-modales Modell namens Healer Alpha mit einem Kontextfenster von 262.144 und multimodalen Fähigkeiten bereitgestellt. Forensische Analysen deuten darauf hin, dass es sich um eine unveröffentlichte Qwen 3.5-Omni-Variante von Alibaba handelt.

OpenClawRadar