Qwen 3.6 27B avec MTP sur V100 32GB : 54 t/s via la branche llama.cpp

Un utilisateur sur r/LocalLLaMA rapporte des résultats impressionnants en exécutant Qwen 3.6 27B avec Multi-Token Prediction (MTP) sur un module V100 32GB SXM via un adaptateur PCIe. La configuration utilise la branche MTP d'am17an de llama.cpp et la quantification MTP GGUF correspondante. Spécifications clés : cache KV Q8_0 avec une limite de 200k, fonctionnant comme backend pour VS Code Copilot via llama-server.
Performances
- Sans MTP : 29-30 tokens/seconde
- Avec MTP : 54-55 tokens/seconde (limité à 150W)
- Après 50k tokens de contexte : chute à 40-45 t/s
Branche : le fork MTP d'am17an. La compilation et l'exécution ont été simples — « tiré et编译é en une seule fois » avec llama-server fonctionnant sans problème. La configuration gère bien les appels d'outils et les sous-agents, et a fourni « des revues de code et des refactorisations très perspicaces » malgré la limite de VRAM (32 Go).
C'est particulièrement pertinent pour les développeurs qui exécutent des LLM sur du matériel de datacenter plus ancien comme les V100. MTP double effectivement le débit pour ce modèle, démontrant des gains pratiques pour les charges de travail d'assistant de codage.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Auto-Continue : L'extension Chrome automatise les interruptions de limite d'utilisation des outils
Un développeur a créé une extension Chrome gratuite qui clique automatiquement sur 'Continuer' lorsque Claude atteint sa limite d'utilisation d'outils après environ 20 appels, éliminant les interruptions manuelles lors des flux de travail agentiques. L'extension inclut une option de minimisation des tokens et fonctionne sur tous les onglets et fenêtres.

Fiche de Code Claude Imprimable avec Mises à Jour Automatiques Hebdomadaires
Un développeur a créé une feuille de triche imprimable pour Claude Code qui se met à jour automatiquement chaque semaine. La feuille a été générée en utilisant Claude lui-même après avoir étudié les fonctionnalités de la documentation et de GitHub.

Le serveur MCP cortex-engine ajoute une mémoire persistante et une prise en charge multi-agents
cortex-engine v0.4.0 est un serveur MCP open-source qui offre aux agents IA une mémoire à long terme persistante avec des outils comme observe(), query(), believe() et dream(). Il prend désormais en charge plusieurs agents avec des espaces de noms de mémoire isolés.

Exécutez des LLM locaux sur votre téléphone avec Observer : agents hors ligne pour la surveillance et la journalisation
Observer est une application iOS open source qui exécute des LLM multimodaux localement sur votre téléphone pour surveiller des événements, enregistrer des données et déclencher des notifications Discord — le tout hors ligne et gratuit.