Nemotron 3 4B est moins performant que Qwen 3.5 4B sur les benchmarks exigeants.

Résultats de Benchmark : Qwen 3.5 4B Surpasse Nemotron 3 4B
Une comparaison détaillée entre Qwen 3.5 4B Q8 et Nemotron 3 4B Q8 révèle des différences significatives de performance dans les tâches de raisonnement mathématique et de production de sorties structurées.
Méthodologie de Test
Le benchmark consistait en cinq sous-tâches exigeantes nécessitant des preuves mathématiques, de l'arithmétique modulaire, de la conception d'algorithmes et de la génération de texte multilingue, le tout enveloppé dans un format JSON valide. L'invite exacte demandait :
- Définition et évaluation de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 avec une forme fermée en termes de H_{n+1}, évaluation à n=2026, et une preuve en 8 lignes utilisant des intégrales
- Calcul de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] de k=1 à 2026 avec justification modulaire
- Algorithme de Möbius + principe d'inclusion-exclusion pour compter les paires coprimes dans un tableau dynamique avec un pseudocode en exactement 14 lignes (noms de variables ≤8 caractères)
- Calcul de C(4052, 2026) mod 7 en utilisant le théorème de Lucas avec conversion en base 7
- Paragraphe en portugais d'exactement 47 mots contenant "Möbius", "inclusão-exclusão" et "Lucas", se terminant par "fim."
Détail des Résultats
Qwen 3.5 4B Q8 (correct) : A produit un JSON valide avec toutes les sous-tâches correctement complétées. Les preuves mathématiques étaient précises, incluant :
{
"A": {
"closed_form": "H_{n+1}/(n+1)",
"value_2026": "H_{2027}/2027",
"proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
},
"B": {
"value": 838,
"justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
}
}
Nemotron 3 4B Q8 (incorrect) : N'a pas réussi à produire un raisonnement correct et une sortie structurée. Les problèmes incluaient :
- Étapes d'intégration déformées avec de mauvaises substitutions dans la preuve mathématique
- Pseudocode incomplet avec des symboles dièse en guise de placeholders au lieu des 14 lignes requises
- Paragraphe en portugais tronqué se terminant au milieu d'une phrase
{
"C": {
"pseudocodigo": [
"read n",
"a = []",
"mu = [0]*(max+1)",
"for i in range(n): a.append(int(input()))",
"for x in a:",
" for d in range(1,int(sqrt(x))):",
" if x%d==0",
" mu[d]+=1",
" mu[x//d]-=1",
"#",
"#",
"#",
"#",
"#",
"#",
"#"
],
"complexidade": "O(n√max)"
}
}
Conclusion Principale
Le benchmark révèle que l'avantage architectural de Nemotron 3 4B—le support de fenêtres de contexte plus larges—ne se traduit pas par une meilleure capacité de raisonnement dans ce contexte. Bien que Nemotron offre théoriquement une capacité de contexte étendue, il n'a pas réussi à exécuter un raisonnement mathématique complexe et une génération de sortie structurée que Qwen 3.5 4B a correctement gérés.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Mise à jour OpenClaw 2026.3.2 : Désactivation des outils de l'agent par défaut
OpenClaw 2026.3.2 désactive par défaut toutes les autorisations d'outils des agents, empêchant le fonctionnement d'outils comme exec et web_fetch. La solution nécessite d'ajouter une configuration au fichier openclaw.json.

La méthode basée sur la grammaire égale ou surpasse l'IA dans l'analyse de paternité d'œuvres.
Une étude de l'Université de Manchester a révélé que LambdaG, une méthode d'analyse de paternité basée sur la grammaire, égalait ou surpassait les principaux systèmes d'IA dans la plupart des ensembles de données de test, tout en offrant une plus grande transparence et un coût de calcul inférieur.

Chargé principal de l'IA gouvernementale ignore les LLM locaux : témoignage d'un développeur
Un développeur de LLM local rapporte qu'un haut responsable gouvernemental en IA ignorait pourquoi les entreprises choisiraient des LLM locaux plutôt que des API cloud, malgré sa compréhension des bases techniques.

Les autoencodeurs en langage naturel d'Anthropic transforment les activations de Claude en anglais lisible — Voici comment
Anthropic publie les Autoencodeurs en Langage Naturel (NLAs) qui convertissent les activations internes de Claude en explications en texte clair, révélant le raisonnement du modèle sur les rimes, la conscience des tests de sécurité et la détection de triche.