Qwen3-8B : 279,9 tokens/sec via Décodage Spéculatif sur RTX 3090

Matériel et Configuration

Le développeur a utilisé une RTX 3090 24 Go, un Ryzen 7600X, 32 Go de RAM et WSL2 Ubuntu. Il est passé d'Ollama sur Windows à llama.cpp sur WSL Linux avec décodage spéculatif pour une plateforme IA interne gérant les recherches de clients, le formatage de devis, la recherche d'équipements et l'analyse de notes de travail désordonnées.

Méthodologie de Test

Ils ont testé 16 modèles GGUF à travers les familles Qwen2.5, Qwen3 et Qwen3.5, toutes les combinaisons cible+brouillon tenant dans 24 Go de VRAM, des appariements de brouillons intergénérationnels (brouillons Qwen2.5 sur cibles Qwen3 et vice versa), et ont surveillé la VRAM sur chaque combinaison pour détecter le déchargement CPU. L'évaluation de la qualité a utilisé des invites réelles de l'entreprise de CVC pour la génération SQL, le formatage de devis, l'analyse de notes de terrain désordonnées et le raisonnement sur la compatibilité des équipements. Ils ont utilisé draftbench et llama-throughput-lab pour les balayages de vitesse, avec Claude Code automatisant le processus pendant la nuit.

Résultats de Vitesse Maximum

Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M : 279,9 tok/s (+236 % d'accélération, 13,6 Go VRAM)
Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0 : 205,4 tok/s (+50 % d'accélération, ~6 Go VRAM)
Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0 : 190,5 tok/s (+129 % d'accélération, 12,9 Go VRAM)
Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0 : 159,1 tok/s (+115 % d'accélération, 13,5 Go VRAM)
Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M : 137,5 tok/s (+186 % d'accélération, ~16 Go VRAM)
Qwen3.5-35B-A3B Q4_K_M (ligne de base, sans brouillon) : 133,6 tok/s (22 Go VRAM)
Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M : 91,0 tok/s (+156 % d'accélération, ~20 Go VRAM)

La combinaison Qwen3-8B + brouillon 1,7B a atteint un taux d'acceptation de 100 % — correspondance parfaite du brouillon où le 1,7B prédit exactement ce que le 8B générerait.

Problème du Mode Réflexion de Qwen3.5

Les modèles Qwen3.5 entrent par défaut en mode réflexion sur llama.cpp, générant des tokens de raisonnement cachés avant de répondre. Cela a causé des résultats de benchmark erratiques : 0 tok/s alternant avec 700 tok/s, TTFT sautant entre 1 s et 28 s. Seules trois méthodes ont fonctionné pour le désactiver :

--jinja + modèle de chat patché avec enable_thinking=false codé en dur ✅
Point de terminaison brut /completion (contourne entièrement le modèle de chat) ✅
Tout le reste (invites système, suffixe /no_think, astuces de température) ❌

Si vous exécutez Qwen3.5 sur llama.cpp, vous avez besoin du modèle patché ou vous obtiendrez des benchmarks inutilisables.

Résultats de l'Évaluation de la Qualité

Ils ont exécuté quatre invites difficiles spécifiques au CVC testant des demandes de clients ambigües, des devis complexes, des notes désordonnées avec fautes de frappe, et un raisonnement sur la compatibilité des équipements. Principales conclusions :

Chaque modèle a échoué au calcul de formule de prix : 8B, 14B, 32B, 35B — aucun n'a pu calculer correctement 4 811 $ / (1 - 0,47) = 9 077 $. Les LLM ne peuvent pas faire de calculs commerciaux de manière fiable — mettez vos formules dans du code.
Le 8B a géré 3/4 des invites difficiles — bon sur les demandes ambigües, les notes désordonnées, les tâches quotidiennes — mais a échoué sur le raisonnement technique des équipements.
Le 35B-A3B était le seul modèle avec de réelles connaissances du domaine CVC — il a correctement dimensionné une mini-split pour un garage non isolé de Chicago, savait recommander la série Hyper-Heat pour climat froid, a correctement indiqué qu'aucune boîte de dérivation n'était nécessaire pour une zone unique — mais a manqué un numéro de modèle dans des notes désordonnées et a échoué au calcul.
Plus grand ≠ meilleur dans tous les cas : Le Qwen3-14B Q4_K_M (159 tok/s) a performé moins bien que le 8B sur la plupart des invites. Le 32B a recommandé une unité de 5 tonnes pour un garage de 400 pi².
Le Qwen2.5-7B a halluciné sur chaque test d'analyse de notes — inventant systématiquement des détails.

📖 Read the full source: r/LocalLLaMA