Les NPU IA AMD Ryzen bénéficient d'une prise en charge Linux LLM via Lemonade 10.0 et FastFlowLM

Quoi de neuf
Les NPU AMD Ryzen AI peuvent désormais exécuter de grands modèles de langage sur Linux via la version 10.0 du serveur open-source Lemonade, qui inclut la prise en charge des NPU Linux pour les LLM et Whisper. Cela marque la première utilisation pratique des NPU Ryzen AI sur Linux au-delà du code de niche.
Détails techniques
L'implémentation s'appuie sur FastFlowLM 0.9.35, un runtime conçu spécifiquement pour les NPU Ryzen AI qui peut prendre en charge des contextes allant jusqu'à 256 000 tokens avec les NPU Ryzen AI de la génération actuelle. Lemonade 10.0 ajoute également une intégration native avec Claude Code.
Configuration système requise :
- Noyau Linux 7.0 OU rétroportages du pilote AMDXDNA vers les versions stables existantes du noyau
- Runtime FastFlowLM 0.9.35
- Serveur Lemonade 10.0
Cette prise en charge devrait fonctionner avec tous les SoC AMD Ryzen AI 300/400 series actuels. AMD a développé le pilote d'accélérateur AMDXDNA dans le noyau Linux principal au cours des deux dernières années, mais jusqu'à présent, la prise en charge logicielle en espace utilisateur était extrêmement limitée.
Contexte
Auparavant, le logiciel GAIA d'AMD sur Linux utilisait Vulkan avec les iGPU plutôt que la prise en charge des NPU. Le timing de cette prise en charge Linux est notable avec la mise sur le marché de la série Ryzen AI Embedded P100 et de la série Ryzen AI PRO 400, qui devraient connaître une utilisation Linux plus importante que les déploiements Windows grand public.
Lemonade fournit une documentation pour exécuter des LLM sur Linux avec FastFlowLM et Lemonade.
📖 Lire la source complète : HN AI Agents
👀 See Also

L'audit des journaux d'API révèle que les agents IA gaspillent des tokens pour l'encombrement de la fenêtre de contexte
Un audit Reddit révèle que les agents Claude brûlent 30 000+ tokens en exploration de fichiers et logs verbeux avant d'écrire du code, provoquant une dégradation architecturale à mesure que le contexte se remplit de bruit.

Claude IA montre un schéma de communication inhabituel basé uniquement sur la ponctuation entre les instances.
Deux instances de Claude Sonnet 4.6 en dialogue sont passées à des séquences de sortie composées uniquement de ponctuation comme "- . . ? , \"-\" , : \" , - \"? ." après un message normal. Le Claude récepteur a interprété ces séquences comme une communication significative tandis que d'autres modèles comme ChatGPT et Grok ne l'ont pas fait.

Évaluation des LLM locaux : génération backend par appel de fonctions – comparaison entre GLM, Qwen et DeepSeek
Un benchmark rigoureux des LLM locaux et frontaliers pour la génération de code backend via l'appel de fonctions, avec grille d'évaluation. Principaux résultats : qwen3.5-35b-a3b égale gpt-5.4 en conception DB/API, et le dense Qwen 27B bat le MoE 397B. Les modèles frontaliers ont été abandonnés pour des raisons de coût.

Codex Converses : Le Successeur d'OpenClaw en Automatisation IA
Codex peut désormais communiquer avec lui-même, annonçant une nouvelle ère dans l'automatisation pilotée par l'IA et remplaçant effectivement OpenClaw, le précédent leader.