Benchmarks Qwen3.5: Contexte 2K-400K sur RTX 4090

Tests de performances de Qwen3.5 sur RTX 4090

Un développeur a partagé des résultats de benchmark pour les modèles Qwen3.5 exécutés sur une carte graphique RTX 4090, testant des fenêtres de contexte allant de 2 048 à 400 000 tokens. Les tests étaient initialement prévus pour un contexte de 262k tokens mais ont été étendus à 400k en utilisant yarn et d'autres méthodes.

Modèles testés

Les variantes suivantes du modèle Qwen3.5 ont été évaluées :

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

Fenêtres de contexte testées

Les modèles ont été évalués à ces longueurs de contexte spécifiques : 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 et 400000 tokens.

Méthodologie de test

Le script de benchmark a été configuré pour obtenir la meilleure vitesse possible en tokens/seconde en utilisant des paramètres NGL avec un cache KV en 8 bits et 4 bits. Le développeur a noté que bien que le temps initial jusqu'au premier token (TTFT) semble long, la colonne Warm TTFT Avg (s) montre de meilleures performances une fois le cache KV chargé. Le contexte a été entièrement chargé lors de la première interaction de manière intentionnelle.

Pour tester les capacités de contexte, les modèles ont reçu une invite d'une phrase pour résumer des journaux, suivie de 2k à 400k tokens de données de journaux. Le développeur a signalé quelques écarts mais des performances globalement satisfaisantes.

Statut actuel et prochaines étapes

Trois modèles ont échoué pendant les tests et subissent des tests de déchargement KV : Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M et Qwen3.5-35B-A3B-Q4_K_M. Le développeur a dû redémarrer ces tests après qu'un problème de script a gaspillé 24 heures de temps d'exécution.

Une fois les tests de déchargement VRAM terminés, le développeur prévoit de comparer les résultats avec des modèles de base et a sauvegardé les sorties pour analyse. Le développeur a exprimé une surprise particulière concernant les performances des modèles denses 9B et 27B.

Le développeur sollicite les contributions de la communauté sur les modèles à comparer et la méthodologie d'évaluation à utiliser pour le classement.

📖 Lire la source complète : r/openclaw

Résultats de référence pour les modèles Qwen3.5 avec un contexte de 2K à 400K sur RTX 4090

Tests de performances de Qwen3.5 sur RTX 4090

Modèles testés

Fenêtres de contexte testées

Méthodologie de test

Statut actuel et prochaines étapes

👀 See Also

Le benchmark montre que le modèle 4B plus petit surpasse les grands LLM pour les applications de discussion téléphone-domicile.

Spotify lance les badges « vérifiés » pour distinguer les artistes humains des créations générées par IA

OpenAI Codex OAuth renvoie des erreurs 429 depuis le 16 mars malgré un quota complet

Claude Code v2.1.132 : Arrêt gracieux SIGINT, correctifs MCP et refonte de la gestion du terminal