Comparaison des performances de Qwen3-30B-A3B et Qwen3.5-35B-A3B sur RTX 5090

✍️ OpenClawRadar📅 Publié: February 25, 2026🔗 Source
Comparaison des performances de Qwen3-30B-A3B et Qwen3.5-35B-A3B sur RTX 5090
Ad

Comparaison des performances : Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Un benchmark détaillé comparant Qwen3-30B-A3B et le nouveau Qwen3.5-35B-A3B sur une NVIDIA RTX 5090 révèle des compromis entre vitesse et gestion du contexte. Les deux modèles utilisent la même architecture Mixture of Experts avec 3B paramètres actifs, la version 3.5 ajoutant 5B paramètres totaux supplémentaires et incluant un projecteur visuel.

Matériel et configuration

  • GPU : NVIDIA RTX 5090 (32 Go de VRAM, Blackwell)
  • Serveur : llama.cpp b8115 (Docker : ghcr.io/ggml-org/llama.cpp:server-cuda)
  • Quantification : Q4_K_M pour les deux modèles
  • Cache KV : Q8_0 (-ctk q8_0 -ctv q8_0)
  • Contexte : 32 768 tokens (-c 32768)
  • Paramètres : -ngl 999 -np 4 --flash-attn on -t 12
  • Modèle A : Qwen3-30B-A3B-Q4_K_M (17 Go sur disque)
  • Modèle B : Qwen3.5-35B-A3B-Q4_K_M (21 Go sur disque)

Les deux modèles ont été préchauffés avec une requête jetable avant le chronométrage. Les temps côté serveur proviennent des réponses API, pas de mesures en temps réel.

Résultats bruts de vitesse d'inférence

Les tests directs via llama.cpp /v1/chat/completions ont montré :

  • Prompts courts (8-9 tokens) : 30B : 248,2 tok/s, 3.5 : 169,5 tok/s
  • Prompts moyens (73-78 tokens) : 30B : 236,1 tok/s, 3.5 : 163,5 tok/s
  • Forme longue (800 tokens) : 30B : 232,6 tok/s, 3.5 : 116,3 tok/s
  • Génération de code (298-400 tokens) : 30B : 233,9 tok/s, 3.5 : 161,6 tok/s
  • Raisonnement (200 tokens) : 30B : 234,8 tok/s, 3.5 : 158,2 tok/s

Vitesse moyenne de génération : 30B : 237,1 tok/s, 3.5 : 153,8 tok/s (le 30B est 35 % plus rapide)

Moyennes de traitement des prompts : 30B : 773,5 tokens/s, 3.5 : 518,1 tokens/s

Le modèle 3.5 montre une régression intéressante sur les sorties longues (800 tokens), tombant à 116 tok/s contre ~160 tok/s sur les sorties courtes. Le traitement des prompts est plus lent sur le 3.5 en raison de son vocabulaire plus large (248K contre 152K tokens).

Ad

Utilisation de la mémoire

Utilisation VRAM : 30B utilise 27,3 Go au repos, 3.5 utilise 29,0 Go au repos. Les deux tiennent confortablement sur la RTX 5090.

Observations sur la qualité des réponses

Les tests à température=0,7 ont montré que les deux modèles produisent des sorties compétentes. Observations clés :

  • Écriture créative : Les deux sont solides, avec le 3.5 montrant une prose légèrement plus atmosphérique
  • Génération de haïku : Les deux produisent des structures 5-7-5 valides
  • Tâches de codage : Les deux implémentent correctement un cache LRU avec des opérations get/put en O(1)

Le modèle 3.5 gère beaucoup mieux les contextes longs avec une échelle de tokens plate contre une dégradation de 21 % pour le 30B. Les différences de qualité sont minimes avec un léger avantage pour le 3.5 en structure et formatage.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Anthropic autorise l'utilisation par abonnement de Claude via OpenClaw à partir de juin
News

Anthropic autorise l'utilisation par abonnement de Claude via OpenClaw à partir de juin

Anthropic permettra l'utilisation par abonnement de Claude via OpenClaw à partir de juin, comme annoncé par le compte Twitter OpenClaw Dev.

OpenClawRadar
Claude Code 2.1.84 ajoute un prompt d'agent généraliste et un outil PowerShell, et supprime les prompts redondants
News

Claude Code 2.1.84 ajoute un prompt d'agent généraliste et un outil PowerShell, et supprime les prompts redondants

Claude Code 2.1.84 introduit un nouveau prompt de sous-agent polyvalent pour les opérations sur les bases de code et une description d'outil PowerShell avec des directives pour éviter les commandes de veille. La mise à jour supprime neuf prompts redondants et simplifie plusieurs descriptions d'outils.

OpenClawRadar
L'analyse de 2 181 points de terminaison de serveurs MCP distants révèle des problèmes de fiabilité
News

L'analyse de 2 181 points de terminaison de serveurs MCP distants révèle des problèmes de fiabilité

Une vérification automatisée de l'état de santé de 2 181 points de terminaison de serveurs MCP distants a révélé que seulement 9 % sont confirmés comme étant opérationnels et sains, avec 52 % complètement morts et 37 % nécessitant une authentification. Les données incluent des ventilations par catégorie, des mesures de latence et des statistiques de disponibilité.

OpenClawRadar
Claude d'Anthropic mène 80 000 entretiens structurés en alternative aux enquêtes
News

Claude d'Anthropic mène 80 000 entretiens structurés en alternative aux enquêtes

Anthropic a utilisé Claude pour mener des entretiens structurés avec environ 80 000 utilisateurs dans plus de 150 pays et 70 langues, le LLM servant à la fois d'intervieweur et d'analyste pour recueillir des informations conversationnelles.

OpenClawRadar