Qwen3 vs Qwen3.5: Benchmarks RTX 5090

Comparaison des performances : Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Un benchmark détaillé comparant Qwen3-30B-A3B et le nouveau Qwen3.5-35B-A3B sur une NVIDIA RTX 5090 révèle des compromis entre vitesse et gestion du contexte. Les deux modèles utilisent la même architecture Mixture of Experts avec 3B paramètres actifs, la version 3.5 ajoutant 5B paramètres totaux supplémentaires et incluant un projecteur visuel.

Matériel et configuration

GPU : NVIDIA RTX 5090 (32 Go de VRAM, Blackwell)
Serveur : llama.cpp b8115 (Docker : ghcr.io/ggml-org/llama.cpp:server-cuda)
Quantification : Q4_K_M pour les deux modèles
Cache KV : Q8_0 (-ctk q8_0 -ctv q8_0)
Contexte : 32 768 tokens (-c 32768)
Paramètres : -ngl 999 -np 4 --flash-attn on -t 12
Modèle A : Qwen3-30B-A3B-Q4_K_M (17 Go sur disque)
Modèle B : Qwen3.5-35B-A3B-Q4_K_M (21 Go sur disque)

Les deux modèles ont été préchauffés avec une requête jetable avant le chronométrage. Les temps côté serveur proviennent des réponses API, pas de mesures en temps réel.

Résultats bruts de vitesse d'inférence

Les tests directs via llama.cpp /v1/chat/completions ont montré :

Prompts courts (8-9 tokens) : 30B : 248,2 tok/s, 3.5 : 169,5 tok/s
Prompts moyens (73-78 tokens) : 30B : 236,1 tok/s, 3.5 : 163,5 tok/s
Forme longue (800 tokens) : 30B : 232,6 tok/s, 3.5 : 116,3 tok/s
Génération de code (298-400 tokens) : 30B : 233,9 tok/s, 3.5 : 161,6 tok/s
Raisonnement (200 tokens) : 30B : 234,8 tok/s, 3.5 : 158,2 tok/s

Vitesse moyenne de génération : 30B : 237,1 tok/s, 3.5 : 153,8 tok/s (le 30B est 35 % plus rapide)

Moyennes de traitement des prompts : 30B : 773,5 tokens/s, 3.5 : 518,1 tokens/s

Le modèle 3.5 montre une régression intéressante sur les sorties longues (800 tokens), tombant à 116 tok/s contre ~160 tok/s sur les sorties courtes. Le traitement des prompts est plus lent sur le 3.5 en raison de son vocabulaire plus large (248K contre 152K tokens).

Utilisation de la mémoire

Utilisation VRAM : 30B utilise 27,3 Go au repos, 3.5 utilise 29,0 Go au repos. Les deux tiennent confortablement sur la RTX 5090.

Observations sur la qualité des réponses

Les tests à température=0,7 ont montré que les deux modèles produisent des sorties compétentes. Observations clés :

Écriture créative : Les deux sont solides, avec le 3.5 montrant une prose légèrement plus atmosphérique
Génération de haïku : Les deux produisent des structures 5-7-5 valides
Tâches de codage : Les deux implémentent correctement un cache LRU avec des opérations get/put en O(1)

Le modèle 3.5 gère beaucoup mieux les contextes longs avec une échelle de tokens plate contre une dégradation de 21 % pour le 30B. Les différences de qualité sont minimes avec un léger avantage pour le 3.5 en structure et formatage.

📖 Lire la source complète : r/LocalLLaMA