Développeur Teste Qwen3.5 27B face à des Modèles Plus Grands pour des Tâches de Codage Locales

Un développeur a testé plusieurs grands modèles de langage pour des tâches de codage locales, comparant les performances et les exigences matérielles. Les tests se sont concentrés sur les variantes de Qwen3.5 et les modèles Nemotron, avec des comparaisons à GPT-5.4 High.
Résultats et constatations des tests
Le développeur a testé ces modèles spécifiques :
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
Principales constatations des tests :
- Nemotron-3-Super-120B a performé "très, très bien", au même niveau que GPT-5.4 High
- Qwen3.5-27B a bien performé pour les tâches de développement
- GPT-OSS-120B et Qwen3.5-122B ont moins bien performé que les deux autres modèles
- Nemotron-3-Super-120B a systématiquement répondu en espagnol (la langue maternelle du testeur) tandis que les autres ont répondu en anglais
Métriques de performance
Le développeur a fourni des chiffres de performance spécifiques :
- Nemotron-3-Super-120B : 80 tokens par seconde (tg/s), ~2000 traitement de prompt (pp), contexte de 100k sur vast.ai avec 4x RTX 3090
- Qwen3.5-27B Q6 : 803 pp, 25 tg/s, contexte de 256k sur vast.ai
Exigences matérielles
Le développeur a noté des contraintes matérielles :
- Qwen3.5-122B nécessiterait une nouvelle carte mère et 1-2 cartes RTX 3090 supplémentaires, le rendant trop coûteux
- Qwen3.5-27B fonctionne sur du matériel existant 2x RTX 3090 sans investissement supplémentaire
- S'ils avaient le matériel pour Nemotron-3-Super-120B, ils l'utiliseraient à la place
Détails d'implémentation
Le développeur prévoit d'utiliser Qwen3.5-27B-GGUF:UD-Q6_K_XL pour de vraies tâches de développement localement et a fourni la commande llama.cpp utilisée pour les tests :
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
Le développeur a mentionné qu'ils continueront à utiliser CODEX pour les tâches complexes mais pourront remplacer les abonnements API pour les tâches quotidiennes par la configuration locale.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Nelson : Un Plugin Claude Code pour Coordonner les Agents IA Comme une Flotte Navale
Nelson est un plugin Claude Code qui structure la coordination des agents IA en utilisant des principes de flotte navale, avec trois modes d'exécution, un système de classification des risques, une surveillance de l'intégrité de la coque et des portes d'ordres permanents pour prévenir les anti-modèles courants.

Système de contrôle de cohérence en temps natif du navigateur pour Claude avec bandes SDE et filtrage de Kalman
Un développeur a créé un système de contrôle de cohérence en temps réel qui fonctionne entièrement comme un artefact Claude dans le navigateur, traitant la conversation comme un processus stochastique avec des chemins SDE Monte Carlo en direct, un double filtrage de Kalman et une détection de signaux comportementaux.

Exécuter OpenClaw dans une Micro-VM Isolée avec Void-Box
OpenClaw peut être exécuté en tant que service au sein d'une micro-machine virtuelle isolée en utilisant Void-Box, un runtime à capacités limitées qui exécute des workflows dans des micro-machines virtuelles KVM, offrant une limite d'exécution propre sans intervention de runtime de conteneur.

Claudius : Widget de chat IA intégrable open-source pour Claude
Claudius est un widget de chat open-source et auto-hébergé alimenté par Claude qui peut être intégré sur n'importe quel site web avec une seule balise script. Il s'exécute sur Cloudflare Workers avec une interface React et comprend des fonctionnalités comme des invites système personnalisées, une limitation du débit et une conformité d'accessibilité.