Benchmarks de performance de Qwen3.5-27B-FP8 avec les agents OpenClaw

Benchmarks de performance issus des tests communautaires
Les tests communautaires ont été réalisés avec une seule carte graphique RTX 4090 modifiée disposant de 48 Go de VRAM. Les modèles officiels Qwen3.5-35B-A3B-FP8 et Qwen3.5-27B-FP8 ont été testés avec une longueur de contexte de 256K.
Recommandations de frameworks
SGLang est recommandé comme le seul framework prenant entièrement en charge la mise en cache des préfixes, essentielle pour l'architecture d'attention hybride de Qwen3.5.
- Pour un contexte de 100K : Le préremplissage à froid prend environ 10 secondes
- Avec mise en cache : Le préremplissage chute à 200 ms
- Résultat : Très faible latence du premier token et sortie extrêmement rapide
Métriques de performance des modèles
- Qwen3.5-35B-A3B-FP8 : Début à 120 tokens/seconde, décroissance à 80 tokens/seconde
- Qwen3.5-27B-FP8 : Début à 20 tokens/seconde, légère décroissance à 18 tokens/seconde
Mise à l'échelle des agents OpenClaw
OpenClaw peut exécuter des équipes d'agents avec six agents simultanément, et la vitesse s'adapte pour atteindre 120 tokens/seconde. Le testeur a noté sa surprise face à ce comportement de mise à l'échelle.
L'inconvénient mentionné est que les performances en mono-thread sont lentes avec cette configuration.
Notes d'optimisation MTP
L'activation de MTP (Prédiction Multi-Token) pour le modèle 27B-FP8 peut considérablement augmenter les vitesses de génération pour une seule requête :
- Sur un seul NVIDIA H100 : Maintient 100 tokens/seconde avec une fenêtre de contexte de 20K
- Vitesse de préremplissage pour 64K tokens : Moins d'une seconde
Mise en garde importante : MTP est incompatible avec la mise en cache des préfixes et est très gourmand en VRAM. Les utilisateurs avec une RTX 4090 devraient commencer avec un paramètre num-steps plus bas.
📖 Lire la source complète : r/openclaw
👀 See Also

Bêta publique de sécurité Claude : analyse le code, valide ses propres découvertes, propose des correctifs
Anthropic a lancé Claude Security en version bêta publique pour les clients Enterprise. Il raisonne à travers le code comme un chercheur en sécurité, remet en question ses propres conclusions via une auto-vérification adversarial, et propose des correctifs concrets.

Développeur Cherche des Conseils d'Architecture pour Servir des Modèles d'Embedding, de Reclassement et Zero-Shot sur 8 Go de VRAM
Un développeur créant un service unifié de graphe de connaissances/RAG pour un agent de codage local rencontre des contraintes de mémoire sur 8 Go de VRAM et 16 Go de RAM système, avec des erreurs de mémoire insuffisante (OOM), des pics de latence et des arrêts du noyau Linux lors du service simultané de trois modèles de transformateurs.

Minimax M2.7 et passage à l'échelle de plus de 100 000 instances OpenClaw abordés lors de la session Écosystème
Jim et AndyML ont accueilli l'équipe Minimax pour discuter de Minimax M2.7 et de la manière dont ils ont mis à l'échelle leur environnement d'hébergement pour prendre en charge plus de 100 000 instances OpenClaw. La session a attiré 100 à 110 utilisateurs de Discord et plus de 350 000 spectateurs sur une diffusion simultanée chinoise.

Kimi 19$/mo Mise à jour : Amélioration d'OpenClaw avec des modèles structurés
Kimi présente sa dernière mise à jour au prix de 19 $/mois, axée sur l'amélioration de la structuration des modèles au sein d'OpenClaw. Cette mise à jour promet des opérations rationalisées et des fonctionnalités d'automatisation améliorées.