Qwen3.5-35B-A3B-UD-Q6_K_XL Testé : 80 tps sur un GPU

Un développeur sur r/LocalLLaMA a partagé des résultats de test détaillés du modèle Qwen3.5-35B-A3B-UD-Q6_K_XL dans des scénarios de développement en production. L'utilisateur a réalisé à la fois des tests de benchmark et des applications pratiques sur des projets clients réels.

Benchmarks de Performance

Le modèle a obtenu des scores de benchmark de 1504pp2048 et 47.71 tg256. La vitesse de génération de tokens était solide lorsqu'elle était répartie sur deux GPU, et augmentait à 80 tokens par seconde (tps) lors de l'exécution sur un seul GPU.

Méthodologie de Test en Production

Le développeur a testé le modèle sur cinq projets différents en utilisant Git Worktrees pour revenir à des spécifications et fonctionnalités connues. Les spécifications pour ces tests ont été générées par Claude, le développeur utilisant un plan Max Pro depuis un an.

Testé sur des projets JavaScript, Go et Rust
Utilisé Git Worktrees pour le contrôle de version pendant les tests
La plupart des "bugs" nécessitaient seulement des ajustements de 5 minutes ou pouvaient être corrigés avec une seconde requête
Comparé l'expérience à l'utilisation de Sonnet 4

Résultats Pratiques et Implications Commerciales

Le développeur a rapporté que Qwen3.5 "a tout déchiré" pour le travail qu'il effectue, notant particulièrement de solides performances sur les projets Go et Rust. Cela a conduit à sérieusement envisager de passer de modèles basés sur API à une approche hybride : utiliser des modèles SOTA via API pour la génération de spécifications et les revues, tout en utilisant des modèles locaux pour le travail de développement.

Les tests ont soulevé des questions sur l'investissement matériel par rapport aux coûts d'abonnement. Le développeur a déjà dépensé 2 000 $ pour Claude Pro Max depuis juin 2025, avec des coûts potentiels atteignant 6 800 $ d'ici 2027 si les abonnements continuent. Cela a conduit à envisager l'achat d'un RTX 6000 Pro comme investissement commercial.

Le développeur utilisait auparavant Qwen Coder pour la complétion par tabulation, mais a constaté que Qwen3.5 amène les capacités des modèles locaux à un nouveau niveau pour un usage en production.

📖 Lire la source complète : r/LocalLLaMA

Qwen3.5-35B-A3B-UD-Q6_K_XL Testé dans les flux de travail de développement en production

Benchmarks de Performance

Méthodologie de Test en Production

Résultats Pratiques et Implications Commerciales

👀 See Also

Utiliser un LLM local comme sous-agent de code Claude pour réduire l'utilisation du contexte

Recherche de mémoire sémantique locale pour agents OpenClaw utilisant les embeddings Harrier

FOMOE Permet l'Inférence du Modèle Qwen3.5 de 397B sur un Matériel de Bureau à 2 100 $

Agent de codage Pi avec Qwen 35B Q2 : utilisation du système de fichiers comme mémoire externe et mise en place de gardes de contexte