Qwen3.5-35B-A3B-UD-Q6_K_XL Testé dans les flux de travail de développement en production

✍️ OpenClawRadar📅 Publié: February 28, 2026🔗 Source
Qwen3.5-35B-A3B-UD-Q6_K_XL Testé dans les flux de travail de développement en production
Ad

Un développeur sur r/LocalLLaMA a partagé des résultats de test détaillés du modèle Qwen3.5-35B-A3B-UD-Q6_K_XL dans des scénarios de développement en production. L'utilisateur a réalisé à la fois des tests de benchmark et des applications pratiques sur des projets clients réels.

Benchmarks de Performance

Le modèle a obtenu des scores de benchmark de 1504pp2048 et 47.71 tg256. La vitesse de génération de tokens était solide lorsqu'elle était répartie sur deux GPU, et augmentait à 80 tokens par seconde (tps) lors de l'exécution sur un seul GPU.

Méthodologie de Test en Production

Le développeur a testé le modèle sur cinq projets différents en utilisant Git Worktrees pour revenir à des spécifications et fonctionnalités connues. Les spécifications pour ces tests ont été générées par Claude, le développeur utilisant un plan Max Pro depuis un an.

  • Testé sur des projets JavaScript, Go et Rust
  • Utilisé Git Worktrees pour le contrôle de version pendant les tests
  • La plupart des "bugs" nécessitaient seulement des ajustements de 5 minutes ou pouvaient être corrigés avec une seconde requête
  • Comparé l'expérience à l'utilisation de Sonnet 4
Ad

Résultats Pratiques et Implications Commerciales

Le développeur a rapporté que Qwen3.5 "a tout déchiré" pour le travail qu'il effectue, notant particulièrement de solides performances sur les projets Go et Rust. Cela a conduit à sérieusement envisager de passer de modèles basés sur API à une approche hybride : utiliser des modèles SOTA via API pour la génération de spécifications et les revues, tout en utilisant des modèles locaux pour le travail de développement.

Les tests ont soulevé des questions sur l'investissement matériel par rapport aux coûts d'abonnement. Le développeur a déjà dépensé 2 000 $ pour Claude Pro Max depuis juin 2025, avec des coûts potentiels atteignant 6 800 $ d'ici 2027 si les abonnements continuent. Cela a conduit à envisager l'achat d'un RTX 6000 Pro comme investissement commercial.

Le développeur utilisait auparavant Qwen Coder pour la complétion par tabulation, mais a constaté que Qwen3.5 amène les capacités des modèles locaux à un nouveau niveau pour un usage en production.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark
Tools

Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark

Atlas est maintenant open source — un moteur d'inférence Rust + CUDA qui atteint un pic de 130 tok/s sur Qwen3.5-35B (NVFP4) sur un seul DGX Spark, sans runtime Python et avec un démarrage à froid inférieur à 2 minutes.

OpenClawRadar
VibeIndex.ai : Plateforme de recherche pour plus de 90 000 compétences IA, MCP et plugins avec analyse de sécurité
Tools

VibeIndex.ai : Plateforme de recherche pour plus de 90 000 compétences IA, MCP et plugins avec analyse de sécurité

Un chercheur coréen en IA a créé vibeindex.ai, un hub consultable qui indexe plus de 90 000 compétences en IA, serveurs MCP et plugins avec des mises à jour horaires et une analyse de sécurité utilisant Cisco Skill Scanner à travers 17 catégories de menaces.

OpenClawRadar
Smriti : Un système similaire à Git pour gérer l'état de raisonnement des LLM afin d'éviter la dérive des conversations
Tools

Smriti : Un système similaire à Git pour gérer l'état de raisonnement des LLM afin d'éviter la dérive des conversations

Smriti est un outil open-source qui permet aux développeurs de sauvegarder, restaurer, brancher et comparer les états de raisonnement dans les conversations LLM pour éviter la dérive. Il traite les interactions comme un état plutôt que comme un historique de discussion, permettant des retours en arrière propres et une exploration alternative sans contamination.

OpenClawRadar
🦀
Tools

Cocall.ai MCP : Appels sortants avec escalade humaine en temps réel

Cocall.ai est un MCP pour Claude qui permet d'effectuer des appels sortants avec un modèle parole-à-parole en duplex intégral. Il peut faire une pause en cours d'appel pour vous poser une question spécifique au lieu de deviner, naviguer dans les menus IVR et vous transférer l'appel si nécessaire.

OpenClawRadar