Prédiction multi-token MTP : génération de tokens 2x plus rapide sur AMD Strix Halo & Radeon 9700 AI Pro

La prédiction multi-token (MTP) promet une génération de tokens jusqu'à 2x plus rapide pour les LLM locaux. Une nouvelle vidéo de démonstration montre MTP fonctionnant sur les matériels AMD Strix Halo et Dual Radeon 9700 AI Pro, ciblant des modèles de classe Qwen 3.6.
Détails clés
- Performance : MTP accélère l'inférence des LLM jusqu'à 2x, particulièrement bénéfique pour les agents de codage.
- Matériel testé : AMD Strix Halo (probablement Ryzen AI série 300) et Dual Radeon 9700 AI Pro (RDNA 4).
- Modèle : Qwen 3.6 (probablement Qwen2.5-7B ou similaire, variante exacte non spécifiée).
- Format de démo : Vidéo YouTube expliquant le fonctionnement de MTP et les améliorations mesurées.
MTP fonctionne en prédisant plusieurs tokens futurs en parallèle à partir d'un seul passage avant, réduisant le nombre d'étapes autorégressives nécessaires. La technique est particulièrement efficace pour les sorties structurées comme le code, où les motifs de tokens sont plus prévisibles.
Pour contexte, la pile de calcul GPU récente d'AMD (ROCm) rattrape NVIDIA CUDA pour l'inférence LLM, et les implémentations de MTP via llama.cpp ou vLLM pourraient réduire davantage l'écart. Les développeurs utilisant des agents de codage locaux (par exemple, CodeLlama, DeepSeek-Coder) devraient s'attendre à des accélérations significatives sur le matériel pris en charge.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Les centres de données d'IA augmentent les températures locales jusqu'à 9,1 °C, selon une étude
Une étude de l'Université de Cambridge a révélé que les centres de données d'IA augmentent la température de surface terrestre de 2°C en moyenne après le début de leurs opérations, avec des cas extrêmes atteignant des hausses de 9,1°C affectant des zones jusqu'à 10 kilomètres à la ronde.

Le code source de Claude aurait fuité, révélant des détails sur l'architecture de l'agent
Le code source de Claude Code, l'agent d'IA de codage d'Anthropic, semble avoir fuité, contenant l'intégralité du dépôt avec les invites système, l'implémentation de la boucle de l'agent et l'infrastructure d'appel d'outils.

Claude-Code v2.1.80 ajoute la surveillance des limites de débit, des améliorations des plugins et des optimisations de la mémoire.
Claude-Code v2.1.80 introduit un champ rate_limits pour les scripts de barre d'état afin d'afficher l'utilisation de Claude.ai, ajoute la prise en charge source: 'settings' pour la marketplace de plugins, et réduit l'utilisation mémoire d'environ 80 Mo dans les grands dépôts. Cette version corrige également la restauration des résultats d'outils parallèles, les échecs WebSocket et divers problèmes d'interface utilisateur.

Système d'Agent OpenClaw Cassé Après les Dernières Mises à Jour
Les dernières mises à jour d'OpenClaw ont compromis les fonctionnalités essentielles des agents, les utilisateurs signalant que les agents ne peuvent plus être créés ou exécutés de manière fiable. Le système permettait auparavant de créer des agents, de les afficher correctement, d'exécuter des workflows et de les utiliser pour des tâches réelles.