Benchmarks de Décodage Spéculatif sur RTX 3090 avec les Modèles Qwen pour une Utilisation dans le Secteur de la CVC

Matériel et Configuration
Le développeur a utilisé une RTX 3090 24 Go, un Ryzen 7600X, 32 Go de RAM et WSL2 Ubuntu. Il est passé d'Ollama sur Windows à llama.cpp sur WSL Linux avec décodage spéculatif pour une plateforme IA interne gérant les recherches de clients, le formatage de devis, la recherche d'équipements et l'analyse de notes de travail désordonnées.
Méthodologie de Test
Ils ont testé 16 modèles GGUF à travers les familles Qwen2.5, Qwen3 et Qwen3.5, toutes les combinaisons cible+brouillon tenant dans 24 Go de VRAM, des appariements de brouillons intergénérationnels (brouillons Qwen2.5 sur cibles Qwen3 et vice versa), et ont surveillé la VRAM sur chaque combinaison pour détecter le déchargement CPU. L'évaluation de la qualité a utilisé des invites réelles de l'entreprise de CVC pour la génération SQL, le formatage de devis, l'analyse de notes de terrain désordonnées et le raisonnement sur la compatibilité des équipements. Ils ont utilisé draftbench et llama-throughput-lab pour les balayages de vitesse, avec Claude Code automatisant le processus pendant la nuit.
Résultats de Vitesse Maximum
- Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M : 279,9 tok/s (+236 % d'accélération, 13,6 Go VRAM)
- Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0 : 205,4 tok/s (+50 % d'accélération, ~6 Go VRAM)
- Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0 : 190,5 tok/s (+129 % d'accélération, 12,9 Go VRAM)
- Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0 : 159,1 tok/s (+115 % d'accélération, 13,5 Go VRAM)
- Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M : 137,5 tok/s (+186 % d'accélération, ~16 Go VRAM)
- Qwen3.5-35B-A3B Q4_K_M (ligne de base, sans brouillon) : 133,6 tok/s (22 Go VRAM)
- Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M : 91,0 tok/s (+156 % d'accélération, ~20 Go VRAM)
La combinaison Qwen3-8B + brouillon 1,7B a atteint un taux d'acceptation de 100 % — correspondance parfaite du brouillon où le 1,7B prédit exactement ce que le 8B générerait.
Problème du Mode Réflexion de Qwen3.5
Les modèles Qwen3.5 entrent par défaut en mode réflexion sur llama.cpp, générant des tokens de raisonnement cachés avant de répondre. Cela a causé des résultats de benchmark erratiques : 0 tok/s alternant avec 700 tok/s, TTFT sautant entre 1 s et 28 s. Seules trois méthodes ont fonctionné pour le désactiver :
--jinja+ modèle de chat patché avecenable_thinking=falsecodé en dur ✅- Point de terminaison brut
/completion(contourne entièrement le modèle de chat) ✅ - Tout le reste (invites système, suffixe
/no_think, astuces de température) ❌
Si vous exécutez Qwen3.5 sur llama.cpp, vous avez besoin du modèle patché ou vous obtiendrez des benchmarks inutilisables.
Résultats de l'Évaluation de la Qualité
Ils ont exécuté quatre invites difficiles spécifiques au CVC testant des demandes de clients ambigües, des devis complexes, des notes désordonnées avec fautes de frappe, et un raisonnement sur la compatibilité des équipements. Principales conclusions :
- Chaque modèle a échoué au calcul de formule de prix : 8B, 14B, 32B, 35B — aucun n'a pu calculer correctement 4 811 $ / (1 - 0,47) = 9 077 $. Les LLM ne peuvent pas faire de calculs commerciaux de manière fiable — mettez vos formules dans du code.
- Le 8B a géré 3/4 des invites difficiles — bon sur les demandes ambigües, les notes désordonnées, les tâches quotidiennes — mais a échoué sur le raisonnement technique des équipements.
- Le 35B-A3B était le seul modèle avec de réelles connaissances du domaine CVC — il a correctement dimensionné une mini-split pour un garage non isolé de Chicago, savait recommander la série Hyper-Heat pour climat froid, a correctement indiqué qu'aucune boîte de dérivation n'était nécessaire pour une zone unique — mais a manqué un numéro de modèle dans des notes désordonnées et a échoué au calcul.
- Plus grand ≠ meilleur dans tous les cas : Le Qwen3-14B Q4_K_M (159 tok/s) a performé moins bien que le 8B sur la plupart des invites. Le 32B a recommandé une unité de 5 tonnes pour un garage de 400 pi².
- Le Qwen2.5-7B a halluciné sur chaque test d'analyse de notes — inventant systématiquement des détails.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Créer un pipeline de 20 agents avec Claude Code : Moins d'IA, plus de structure
Un développeur a construit un pipeline de 20 agents avec Claude Code pour automatiser les flux de travail quotidiens à travers Gmail, Calendar, Notion, LinkedIn, des scrapers web et des API locales. L'idée clé : la fiabilité est venue de l'ajout d'une structure déterministe autour de l'IA, pas de meilleurs prompts.

Développeur Construit un Système ERP Complet avec Assistant IA Utilisant Claude et Gemini
Un développeur a créé une plateforme ERP complète appelée AXIO avec 9 modules et un assistant IA qui exécute des commandes vocales en utilisant Gemini 2.5 Flash avec 16 outils d'appel de fonctions. Le système a été construit avec Next.js 14, TypeScript et Supabase en 3 semaines grâce au 'vibe-coding' avec Claude.

Patient cardiaque de 73 ans crée une PWA de suivi de santé avec Claude AI
Une personne de 73 ans sans expérience en programmation et souffrant de multiples problèmes cardiaques a créé ClinBridge, une Progressive Web App pour le suivi de santé, en utilisant Claude AI. L'application suit la tension artérielle, l'apport hydrique, le poids, la fréquence cardiaque, les symptômes, les repas et les activités, fonctionne complètement hors ligne et est open source.

Utiliser Kimi K2.6 pour désinstaller correctement des applications macOS en trouvant les répertoires d'applications cachés
Un développeur décrit comment il utilise Kimi K2.6 pour trouver et supprimer automatiquement les répertoires d'applications macOS, y compris les fichiers cachés ~/.appname et ~/Library/Application Support, avec un agent personnalisé qui modifie ses connaissances de base pour améliorer le processus.