Qwen3.5 27B vs LLMs Plus Grands : Test Codage Local

Un développeur a testé plusieurs grands modèles de langage pour des tâches de codage locales, comparant les performances et les exigences matérielles. Les tests se sont concentrés sur les variantes de Qwen3.5 et les modèles Nemotron, avec des comparaisons à GPT-5.4 High.

Résultats et constatations des tests

Le développeur a testé ces modèles spécifiques :

unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-122B-A10B-GGUF
unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
unsloth/gpt-oss-120b-GGUF:F16

Principales constatations des tests :

Nemotron-3-Super-120B a performé "très, très bien", au même niveau que GPT-5.4 High
Qwen3.5-27B a bien performé pour les tâches de développement
GPT-OSS-120B et Qwen3.5-122B ont moins bien performé que les deux autres modèles
Nemotron-3-Super-120B a systématiquement répondu en espagnol (la langue maternelle du testeur) tandis que les autres ont répondu en anglais

Métriques de performance

Le développeur a fourni des chiffres de performance spécifiques :

Nemotron-3-Super-120B : 80 tokens par seconde (tg/s), ~2000 traitement de prompt (pp), contexte de 100k sur vast.ai avec 4x RTX 3090
Qwen3.5-27B Q6 : 803 pp, 25 tg/s, contexte de 256k sur vast.ai

Exigences matérielles

Le développeur a noté des contraintes matérielles :

Qwen3.5-122B nécessiterait une nouvelle carte mère et 1-2 cartes RTX 3090 supplémentaires, le rendant trop coûteux
Qwen3.5-27B fonctionne sur du matériel existant 2x RTX 3090 sans investissement supplémentaire
S'ils avaient le matériel pour Nemotron-3-Super-120B, ils l'utiliseraient à la place

Détails d'implémentation

Le développeur prévoit d'utiliser Qwen3.5-27B-GGUF:UD-Q6_K_XL pour de vraies tâches de développement localement et a fourni la commande llama.cpp utilisée pour les tests :

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

Le développeur a mentionné qu'ils continueront à utiliser CODEX pour les tâches complexes mais pourront remplacer les abonnements API pour les tâches quotidiennes par la configuration locale.

📖 Read the full source: r/LocalLLaMA

Développeur Teste Qwen3.5 27B face à des Modèles Plus Grands pour des Tâches de Codage Locales

Résultats et constatations des tests

Métriques de performance

Exigences matérielles

Détails d'implémentation

👀 See Also

ClawCall obtient des numéros de téléphone dédiés : les agents peuvent désormais réserver un numéro pour les appels sortants

AIsbf 0.9.8 ajoute la mise en cache, des améliorations de routage et un support élargi des services d'IA.

PocketBot : l'application iOS utilise Claude pour générer des automatisations JavaScript déterministes à partir du langage naturel.

Supra-50M-Reasoning : Petit modèle open-source avec raisonnement par chaîne de pensée