Krasis : un runtime hybride CPU/GPU pour les grands modèles MoE atteint 3 324 tok/s en pré-remplissage sur RTX 5080

Krasis est un runtime hybride CPU/GPU spécialement conçu pour les grands modèles Mixture-of-Experts (MoE). L'approche principale utilise le GPU pour la phase de préremplissage, qui est coûteuse en calcul, tandis que le CPU gère le décodage, avec la RAM système fournissant une capacité supplémentaire pour maximiser les performances.
Résultats de référence
Configuration RTX 5080 :
- Matériel : AMD 5900X, DDR4-3200, 1x RTX 5080 16 Go, PCIe 4.0 x16
- Qwen3-Coder-Next (80B) Q4 : 3 324 tok/s en préremplissage, 9,7 s TTFT (contexte de 35K), 14,9 tok/s en décodage
Configuration EPYC :
- Matériel : AMD EPYC 7742 (64c), DDR4-2666 8 canaux, 1x RTX 2000 Ada 16 Go, PCIe 4.0 x8
- Qwen3-Coder-Next (80B) Q4 : 1 060 tok/s en préremplissage, 18,9 s TTFT, 15,8 tok/s en décodage
- Qwen3-Coder-Next (80B) Q8 : 873 tok/s en préremplissage, 40,1 s TTFT, 12,4 tok/s en décodage
- Qwen3.5-35B-A3B Q4 : 1 374 tok/s en préremplissage, 14,6 s TTFT, 15,0 tok/s en décodage
- Qwen3-235B-A22B Q4 : 289 tok/s en préremplissage, 69,1 s TTFT, 3,4 tok/s en décodage
- DeepSeek V2-Lite (16B) Q4 : 1 477 tok/s en préremplissage, 13,6 s TTFT, 20,2 tok/s en décodage
- DeepSeek V2-Lite (16B) Q8 : 1 317 tok/s en préremplissage, 15,2 s TTFT, 17,8 tok/s en décodage
Les références utilisaient des invites de 10K à 50K tokens pour le préremplissage (le meilleur parmi 20K/35K/50K est rapporté) et une génération de 64 tokens pour le décodage (moyenne de 3 exécutions).
Fonctionnement
Contrairement aux runtimes standards qui ne déchargent que quelques couches sur le GPU et exécutent la majeure partie du modèle sur le CPU, Krasis traite le GPU comme un moteur de calcul en flux continu. Il pousse le modèle à travers la VRAM aussi rapidement que possible, masquant les transferts sous un calcul simultané. Le GPU gère la passe complète de préremplissage, puis le CPU gère le décodage.
Compromis
- Gourmand en RAM : Nécessite environ 2,5 fois le poids du modèle quantifié en RAM système (par exemple, ~100 Go pour Qwen3-Coder-Next en Q4)
- Cartes NVIDIA uniquement
- Spécifiquement ciblé sur les modèles MoE (le décodage serait lent sur les modèles denses)
- La première exécution est lente en raison du prétraitement et de la mise en cache
- Gourmand en disque : Nécessite le fichier safetensors BF16 original et stocke les modèles transcodés en cache (~2 fois la taille du modèle quantifié)
Modèles pris en charge
Qwen3-Coder-Next (le plus testé), Qwen3.5-35B-A3B, Qwen3-235B-A22B et DeepSeek V2-Lite. D'autres modèles arrivent bientôt.
Détails techniques
- Écrit en Rust + Python (pour l'orchestration)
- API compatible OpenAI (fonctionne avec Cursor, OpenCode, etc.)
- Lanceur interactif pour la configuration
- Sous licence SSPL (libre d'utilisation, de modification et de distribution)
- GitHub : https://github.com/brontoguana/krasis
Le développeur sollicite des retours sur les modèles à prendre en charge ensuite, des avis sur les compromis, et des références de la part d'utilisateurs avec des cartes de série 5 et PCIe 5.0.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

French: Serveur MCP Local pour Claude Code avec Réduction de 98% des Tokens
Semble est un serveur MCP open source pour Claude Code qui remplace les workflows grep+read, en utilisant les embeddings, BM25 et le reclassement pour réduire l'utilisation des tokens d'environ 98% tout en indexant les dépôts en ~250ms.

Helix : Un framework open-source transforme Claude en agent IA personnel pour macOS
Helix est un framework open-source qui connecte Claude via Claude Code dans le Terminal à macOS grâce à quatre plugins serveur MCP, permettant à Claude de contrôler des applications, de maintenir une mémoire persistante, d'exécuter des tâches planifiées et de fonctionner avec un traitement vocal local.

Pali v0.1 : Infrastructure de mémoire open source pour LLM avec des benchmarks reproductibles
Pali est une infrastructure de mémoire open source pour les LLM, construite en Go sous forme d'un binaire unique avec des API multi-locataires, une récupération hybride et des extensions plug-and-play. La version v0.1 inclut une suite de benchmarks avec des résultats reproductibles montrant les métriques de performance pour différentes configurations.

Prism MCP v5.1 ajoute une compression mémoire 10x et un apprentissage de l'agent à partir des corrections.
Prism MCP v5.1 introduit une compression mémoire 10x grâce à TurboQuant porté en TypeScript, permettant des millions de mémoires sur un ordinateur portable sans bases de données vectorielles. La mise à jour ajoute l'apprentissage de l'agent à partir des corrections utilisateur et une interface de graphe de connaissances visuel.