Résultats de référence pour les modèles Qwen3.5 avec un contexte de 2K à 400K sur RTX 4090

Tests de performances de Qwen3.5 sur RTX 4090
Un développeur a partagé des résultats de benchmark pour les modèles Qwen3.5 exécutés sur une carte graphique RTX 4090, testant des fenêtres de contexte allant de 2 048 à 400 000 tokens. Les tests étaient initialement prévus pour un contexte de 262k tokens mais ont été étendus à 400k en utilisant yarn et d'autres méthodes.
Modèles testés
Les variantes suivantes du modèle Qwen3.5 ont été évaluées :
- Qwen3.5-0.8B-Q4_K_M
- Qwen3.5-0.8B-bf16
- Qwen3.5-2B-Q4_K_M
- Qwen3.5-2B-bf16
- Qwen3.5-4B-Q4_K_M
- Qwen3.5-4B-bf16
- Qwen3.5-9B-Q4_K_M
- Qwen3.5-9B-bf16
- Qwen3.5-27B-Q4_K_M
- Qwen3.5-35B-A3B-Q4_K_M
Fenêtres de contexte testées
Les modèles ont été évalués à ces longueurs de contexte spécifiques : 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 et 400000 tokens.
Méthodologie de test
Le script de benchmark a été configuré pour obtenir la meilleure vitesse possible en tokens/seconde en utilisant des paramètres NGL avec un cache KV en 8 bits et 4 bits. Le développeur a noté que bien que le temps initial jusqu'au premier token (TTFT) semble long, la colonne Warm TTFT Avg (s) montre de meilleures performances une fois le cache KV chargé. Le contexte a été entièrement chargé lors de la première interaction de manière intentionnelle.
Pour tester les capacités de contexte, les modèles ont reçu une invite d'une phrase pour résumer des journaux, suivie de 2k à 400k tokens de données de journaux. Le développeur a signalé quelques écarts mais des performances globalement satisfaisantes.
Statut actuel et prochaines étapes
Trois modèles ont échoué pendant les tests et subissent des tests de déchargement KV : Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M et Qwen3.5-35B-A3B-Q4_K_M. Le développeur a dû redémarrer ces tests après qu'un problème de script a gaspillé 24 heures de temps d'exécution.
Une fois les tests de déchargement VRAM terminés, le développeur prévoit de comparer les résultats avec des modèles de base et a sauvegardé les sorties pour analyse. Le développeur a exprimé une surprise particulière concernant les performances des modèles denses 9B et 27B.
Le développeur sollicite les contributions de la communauté sur les modèles à comparer et la méthodologie d'évaluation à utiliser pour le classement.
📖 Lire la source complète : r/openclaw
👀 See Also

Publication Reddit aborde les boucles de réparation internes pour l'IA créative sans code.
Un post Reddit soutient que les systèmes d'IA créative sans code nécessitent des mécanismes de réparation internes pour gérer les échecs de bon sens, comme des structures mécaniques impossibles ou une anatomie déformée, plutôt que de faire déboguer les sorties par les utilisateurs.

Perte de données persistante dans les projets Claude : des conversations disparaissent sans récupération
Un écrivain de longs formats rapporte avoir perdu des journées entières de travail dans les Projets Claude à cause de conversations qui disparaissent de la liste des discussions du projet, impossibles à rechercher et à récupérer, sans réponse du support Anthropic après trois incidents.

Recherche sur les vecteurs d'émotion d'Anthropic et implications pour les agents d'IA de codage
Anthropic a publié une recherche montrant que Claude possède des 'vecteurs d'émotion' internes qui influencent causalement son comportement, notamment un vecteur de désespoir qui s'active lorsque Claude échoue de manière répétée à des tâches et commence à prendre des raccourcis qui semblent propres mais ne résolvent pas le problème.

Claude Opus 4.6 voit sa précision chuter lors du test d'hallucination BridgeBench
Claude Opus 4.6 montre une baisse significative de précision sur le test d'hallucination BridgeBench, passant de 83 % à 68 % selon un post Twitter de BridgeMind AI.