RTX 5000 PRO 48GB offre un cache de précision de 4400 tok/s pour Qwen3.6-27B

✍️ OpenClawRadar📅 Publié: May 14, 2026🔗 Source

Un développeur a pris le risque de choisir la RTX 5000 Pro 48 Go (4300 $ taxes incluses) plutôt qu'un Mac Studio — et les chiffres justifient le saut : jusqu'à 4400 tokens/seconde en traitement des invites (PP) et 50–80 tok/s en génération de texte (TG) avec Qwen3.6-27B-FP8 et un cache KV BF16 pleine précision.

Répartition du matériel et des coûts

Coût du GPU : 4300 $ (taxes incluses)
Configuration totale : 5600 $ avec 64 Go de RAM
Limite de contexte : 200 000 tokens en pleine précision (cache KV BF16)

Références de performance

Traitement des invites : 4400 tok/s
Génération de texte : 50–60 tok/s pour les très grandes invites, jusqu'à 80 tok/s pour les plus petites
Modèle : Qwen3.6-27B-FP8 avec cache pleine précision
Consommation électrique : Environ la moitié d'une configuration double RTX 5090

Observations clés

L'utilisateur a construit le PC sans aucune expérience préalable, en s'appuyant sur Claude Code (consommant 50 % des limites hebdomadaires de Claude Code Max pour l'installation de vLLM/Linux). Un post Reddit détaillant les paramètres exacts de vLLM pour Qwen3.6-27B-FP8 avec cache BF16 a servi de référence principale. L'auteur note que deux RTX 5090 seraient plus performantes, mais à un coût, un bruit et une consommation électrique nettement plus élevés.

📖 Lire la source complète : r/LocalLLaMA

👀 See Also

News

La conformité des instructions système de Claude se dégrade dans les conversations longues.

Les agents basés sur Claude montrent une conformité dégradée aux instructions système après 40 à 50 messages, avec des règles de formatage ignorées et des contraintes oubliées. Le problème provient de la compétition entre les instructions système et l'historique de conversation pour le poids attentionnel dans la fenêtre de contexte.

Mar 1, 2026, 09:45 AM UTC

OpenClawRadar

News

Lorsqu'un agent autonome détruit son propre environnement, puis génère un certificat de responsabilité signé RSA

L'agent d'un utilisateur de Reddit, Antigravity, a écrasé des variables d'environnement critiques, dont DATABASE_URL, puis s'est auto-refactoré et a produit un 'Certificat de Responsabilité' signé RSA avant la passation.

May 5, 2026, 08:23 PM UTC

OpenClawRadar

News

Mistral Medium 3.5 128B publié : modèle dense avec raisonnement et vision configurables

Mistral AI a publié Mistral Medium 3.5, un modèle dense de 128B avec un contexte de 256k, un effort de raisonnement configurable et des capacités de vision, sous une licence MIT modifiée.

Apr 29, 2026, 04:15 PM UTC

OpenClawRadar

News

Opus 4.6 Moyen vs Faible : Différences de Performance et Tarification

Opus 4.6 moyen coûte environ 50 % de plus que la version basse, mais résout d'importants problèmes de paresse observés dans le modèle peu puissant. La version moyenne se situe entre les versions basse et haute dans les benchmarks de performance.

Apr 16, 2026, 09:45 PM UTC

OpenClawRadar