Krasis Runtime Hybride CPU/GPU : 3 324 Tok/s sur RTX 5080

Krasis est un runtime hybride CPU/GPU spécialement conçu pour les grands modèles Mixture-of-Experts (MoE). L'approche principale utilise le GPU pour la phase de préremplissage, qui est coûteuse en calcul, tandis que le CPU gère le décodage, avec la RAM système fournissant une capacité supplémentaire pour maximiser les performances.

Résultats de référence

Configuration RTX 5080 :

Matériel : AMD 5900X, DDR4-3200, 1x RTX 5080 16 Go, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4 : 3 324 tok/s en préremplissage, 9,7 s TTFT (contexte de 35K), 14,9 tok/s en décodage

Configuration EPYC :

Matériel : AMD EPYC 7742 (64c), DDR4-2666 8 canaux, 1x RTX 2000 Ada 16 Go, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4 : 1 060 tok/s en préremplissage, 18,9 s TTFT, 15,8 tok/s en décodage
Qwen3-Coder-Next (80B) Q8 : 873 tok/s en préremplissage, 40,1 s TTFT, 12,4 tok/s en décodage
Qwen3.5-35B-A3B Q4 : 1 374 tok/s en préremplissage, 14,6 s TTFT, 15,0 tok/s en décodage
Qwen3-235B-A22B Q4 : 289 tok/s en préremplissage, 69,1 s TTFT, 3,4 tok/s en décodage
DeepSeek V2-Lite (16B) Q4 : 1 477 tok/s en préremplissage, 13,6 s TTFT, 20,2 tok/s en décodage
DeepSeek V2-Lite (16B) Q8 : 1 317 tok/s en préremplissage, 15,2 s TTFT, 17,8 tok/s en décodage

Les références utilisaient des invites de 10K à 50K tokens pour le préremplissage (le meilleur parmi 20K/35K/50K est rapporté) et une génération de 64 tokens pour le décodage (moyenne de 3 exécutions).

Fonctionnement

Contrairement aux runtimes standards qui ne déchargent que quelques couches sur le GPU et exécutent la majeure partie du modèle sur le CPU, Krasis traite le GPU comme un moteur de calcul en flux continu. Il pousse le modèle à travers la VRAM aussi rapidement que possible, masquant les transferts sous un calcul simultané. Le GPU gère la passe complète de préremplissage, puis le CPU gère le décodage.

Compromis

Gourmand en RAM : Nécessite environ 2,5 fois le poids du modèle quantifié en RAM système (par exemple, ~100 Go pour Qwen3-Coder-Next en Q4)
Cartes NVIDIA uniquement
Spécifiquement ciblé sur les modèles MoE (le décodage serait lent sur les modèles denses)
La première exécution est lente en raison du prétraitement et de la mise en cache
Gourmand en disque : Nécessite le fichier safetensors BF16 original et stocke les modèles transcodés en cache (~2 fois la taille du modèle quantifié)

Modèles pris en charge

Qwen3-Coder-Next (le plus testé), Qwen3.5-35B-A3B, Qwen3-235B-A22B et DeepSeek V2-Lite. D'autres modèles arrivent bientôt.

Détails techniques

Écrit en Rust + Python (pour l'orchestration)
API compatible OpenAI (fonctionne avec Cursor, OpenCode, etc.)
Lanceur interactif pour la configuration
Sous licence SSPL (libre d'utilisation, de modification et de distribution)
GitHub : https://github.com/brontoguana/krasis

Le développeur sollicite des retours sur les modèles à prendre en charge ensuite, des avis sur les compromis, et des références de la part d'utilisateurs avec des cartes de série 5 et PCIe 5.0.

📖 Lire la source complète : r/LocalLLaMA