Nemotron 3 4B vs Qwen 3.5 4B : test sur benchmarks exigeants

Résultats de Benchmark : Qwen 3.5 4B Surpasse Nemotron 3 4B

Une comparaison détaillée entre Qwen 3.5 4B Q8 et Nemotron 3 4B Q8 révèle des différences significatives de performance dans les tâches de raisonnement mathématique et de production de sorties structurées.

Méthodologie de Test

Le benchmark consistait en cinq sous-tâches exigeantes nécessitant des preuves mathématiques, de l'arithmétique modulaire, de la conception d'algorithmes et de la génération de texte multilingue, le tout enveloppé dans un format JSON valide. L'invite exacte demandait :

Définition et évaluation de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 avec une forme fermée en termes de H_{n+1}, évaluation à n=2026, et une preuve en 8 lignes utilisant des intégrales
Calcul de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] de k=1 à 2026 avec justification modulaire
Algorithme de Möbius + principe d'inclusion-exclusion pour compter les paires coprimes dans un tableau dynamique avec un pseudocode en exactement 14 lignes (noms de variables ≤8 caractères)
Calcul de C(4052, 2026) mod 7 en utilisant le théorème de Lucas avec conversion en base 7
Paragraphe en portugais d'exactement 47 mots contenant "Möbius", "inclusão-exclusão" et "Lucas", se terminant par "fim."

Détail des Résultats

Qwen 3.5 4B Q8 (correct) : A produit un JSON valide avec toutes les sous-tâches correctement complétées. Les preuves mathématiques étaient précises, incluant :

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (incorrect) : N'a pas réussi à produire un raisonnement correct et une sortie structurée. Les problèmes incluaient :

Étapes d'intégration déformées avec de mauvaises substitutions dans la preuve mathématique
Pseudocode incomplet avec des symboles dièse en guise de placeholders au lieu des 14 lignes requises
Paragraphe en portugais tronqué se terminant au milieu d'une phrase

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Conclusion Principale

Le benchmark révèle que l'avantage architectural de Nemotron 3 4B—le support de fenêtres de contexte plus larges—ne se traduit pas par une meilleure capacité de raisonnement dans ce contexte. Bien que Nemotron offre théoriquement une capacité de contexte étendue, il n'a pas réussi à exécuter un raisonnement mathématique complexe et une génération de sortie structurée que Qwen 3.5 4B a correctement gérés.

📖 Lire la source complète : r/LocalLLaMA

Nemotron 3 4B est moins performant que Qwen 3.5 4B sur les benchmarks exigeants.

Résultats de Benchmark : Qwen 3.5 4B Surpasse Nemotron 3 4B

Méthodologie de Test

Détail des Résultats

Conclusion Principale

👀 See Also

Justification du projet Zig pour sa politique stricte anti-LLM concernant les contributions

Le bug de mise à jour automatique d'OpenClaw laisse des répertoires prévol orphelins qui saturent /tmp

Anthropic publie le connecteur Blender MCP – Claude contrôle désormais Blender via l'API Python

Modifications de facturation du SDK Claude Agent au 15 juin : crédits par utilisateur, sans report, seuil strict