MTP + Mémoire Unifiée améliore l'inférence de llama.cpp de 30% sur RTX 5090

✍️ OpenClawRadar📅 Publié: May 12, 2026🔗 Source
Ad

Combiner GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 avec la prédiction multi-tokens (MTP) dans llama.cpp offre une amélioration du débit d'environ 30 % — 64 tok/s contre 49 tok/s sur un modèle Qwen3.6-27B Q8_0. Le benchmark a été réalisé sur une RTX 5090 associée à 128 Go de DDR5 5600 CL36 et un Ryzen 9 9950X3D.

Commande et configuration

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Flags clés :

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — permet au GPU d'accéder directement à la mémoire hôte, contournant CUDA malloc pour les grands contextes.
  • --spec-type mtp --spec-draft-n-max 3 — active la spéculation MTP avec une profondeur d'ébauche de 3.
  • Qwen3.6-27B-Q8_0.gguf — un modèle Qwen3.6 de 27B paramètres quantifié en Q8_0, préparé avec le support MTP d'Unsloth.
  • -c 262144 — fenêtre de contexte de 256K ; -fa on pour l'attention flash.
Ad

Résultats

  • Sans MTP (mémoire unifiée seulement) : 49 tok/s
  • Avec MTP + mémoire unifiée : 64 tok/s
  • Gain : 30 % de débit en plus

Avec draft-n-max de 3, le modèle spécule jusqu'à 3 tokens à l'avance, réduisant le surcoût de décodage série. Combiné à la mémoire unifiée, cela évite les transferts PCIe coûteux entre le CPU et la RAM du GPU.

À qui cela s'adresse

Développeurs exécutant une inférence locale avec grand contexte sur des GPU grand public haut de gamme (RTX 5090) avec une RAM système abondante (≥128 Go). Convient aux chatbots, assistants de code ou toute charge de travail LLM sensible à la latence où l'échantillonnage spéculatif est pris en charge.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

L'API AskFirst ajoute une couche d'approbation humaine pour les agents IA.
Tools

L'API AskFirst ajoute une couche d'approbation humaine pour les agents IA.

AskFirst est une API REST qui permet aux agents IA de faire une pause pour obtenir l'approbation humaine avant d'entreprendre des actions irréversibles. Elle fonctionne avec des modèles locaux, des API hébergées et n'importe quel framework, offrant des notifications par e-mail, des options d'approbation/refus et des journaux d'audit.

OpenClawRadar
🦀
Tools

Claude Code vs Codex : 36 vs 28 fichiers, 2,50 $ vs 2,04 $, boucle infinie détectée — comparaison réelle

Un développeur exécute les deux mêmes tâches sur Claude Code et Codex (Cursor) : robot de tri des PR et interface de révision de code en temps réel. Résultats : 36 contre 28 fichiers, 2,50 $ contre 2,04 $, Claude a produit moins d'erreurs TypeScript, Codex avait une boucle React infinie.

OpenClawRadar
Examen des performances d'Omnicoder-9B : Vitesse contre problèmes d'appel d'outils
Tools

Examen des performances d'Omnicoder-9B : Vitesse contre problèmes d'appel d'outils

Omnicoder-9B, un modèle axé sur le codage affiné sur Qwen3.5 9B avec des sorties d'Opus 4.6, GPT 5.4, GPT 5.3 Codex et Gemini 3.1 Pro, montre de solides performances sur du matériel de milieu de gamme mais présente des problèmes d'appel d'outils dans les IDE.

OpenClawRadar
Tacit : un langage de programmation pensé pour les LLM, construit avec Claude Code et Opus 4.7
Tools

Tacit : un langage de programmation pensé pour les LLM, construit avec Claude Code et Opus 4.7

Tacit est un langage de programmation expérimental conçu pour les LLM, créé et implémenté à l'aide de Claude Code et Opus 4.7. Il élimine les commodités humaines pour minimiser l'utilisation de tokens et est livré avec un primer qui apprend aux LLM de milieu de gamme et supérieurs (Sonnet et au-dessus) à écrire du code Tacit.

OpenClawRadar