Benchmarks de performance de Qwen3.5-27B-FP8 avec les agents OpenClaw

✍️ OpenClawRadar📅 Publié: February 28, 2026🔗 Source

Benchmarks de performance issus des tests communautaires

Les tests communautaires ont été réalisés avec une seule carte graphique RTX 4090 modifiée disposant de 48 Go de VRAM. Les modèles officiels Qwen3.5-35B-A3B-FP8 et Qwen3.5-27B-FP8 ont été testés avec une longueur de contexte de 256K.

Recommandations de frameworks

SGLang est recommandé comme le seul framework prenant entièrement en charge la mise en cache des préfixes, essentielle pour l'architecture d'attention hybride de Qwen3.5.

Pour un contexte de 100K : Le préremplissage à froid prend environ 10 secondes
Avec mise en cache : Le préremplissage chute à 200 ms
Résultat : Très faible latence du premier token et sortie extrêmement rapide

Métriques de performance des modèles

Qwen3.5-35B-A3B-FP8 : Début à 120 tokens/seconde, décroissance à 80 tokens/seconde
Qwen3.5-27B-FP8 : Début à 20 tokens/seconde, légère décroissance à 18 tokens/seconde

Mise à l'échelle des agents OpenClaw

OpenClaw peut exécuter des équipes d'agents avec six agents simultanément, et la vitesse s'adapte pour atteindre 120 tokens/seconde. Le testeur a noté sa surprise face à ce comportement de mise à l'échelle.

L'inconvénient mentionné est que les performances en mono-thread sont lentes avec cette configuration.

Notes d'optimisation MTP

L'activation de MTP (Prédiction Multi-Token) pour le modèle 27B-FP8 peut considérablement augmenter les vitesses de génération pour une seule requête :

Sur un seul NVIDIA H100 : Maintient 100 tokens/seconde avec une fenêtre de contexte de 20K
Vitesse de préremplissage pour 64K tokens : Moins d'une seconde

Mise en garde importante : MTP est incompatible avec la mise en cache des préfixes et est très gourmand en VRAM. Les utilisateurs avec une RTX 4090 devraient commencer avec un paramètre num-steps plus bas.

📖 Lire la source complète : r/openclaw

👀 See Also

News

Discussion sur Reddit concernant les risques à long terme de la dépendance aux agents de codage

Un utilisateur de Reddit soutient que les agents de codage actuels comme Claude Code et Copilot créent une dépendance qui pourrait conduire à un enfermement vis-à-vis du fournisseur, à une centralisation de la création logicielle et à une marchandisation du savoir-faire en ingénierie.

Mar 21, 2026, 07:45 AM UTC

OpenClawRadar

News

OpenClaw v2026.3.12 : la refonte du tableau de bord regroupe les éléments de l'interface

OpenClaw v2026.3.12 propose une refonte complète du tableau de bord qui regroupe les vues modulaires pour le chat, la configuration, les agents et les sessions, ainsi que la palette de commandes, les onglets inférieurs mobiles, les commandes slash, la recherche, l'exportation et les messages épinglés en une seule interface.

Mar 13, 2026, 09:45 AM UTC

OpenClawRadar

News

Anthropic acquiert Vercept AI pour améliorer les capacités informatiques de Claude

Anthropic a acquis Vercept AI pour travailler sur les fonctionnalités d'utilisation informatique de Claude. Cette acquisition vise à résoudre les problèmes de perception et d'interaction pour rendre l'IA plus utile dans les tâches complexes.

Feb 25, 2026, 07:45 PM UTC

OpenClawRadar

News

PeerZero : Des Agents IA Effectuent l'Évaluation par les Pairs avec des Incitations Basées sur la Crédibilité

PeerZero est une plateforme où des agents IA soumettent des articles de recherche, examinent mutuellement leur travail et misent leur crédibilité sur le fait d'avoir raison grâce à un système de primes. Les agents gagnent ou perdent des points de crédibilité en fonction de la précision de leurs évaluations, avec des mécanismes de valeur aberrante justifiée qui récompensent la pensée indépendante et punissent la pensée de groupe.

Feb 26, 2026, 03:45 PM UTC

OpenClawRadar