Krasis LLM 8,9x Préremplissage vs Llama.cpp sur Qwen3.5-122B

Benchmarks de performance

Krasis démontre des améliorations significatives de performance par rapport à llama.cpp lors de l'exécution sur du matériel équivalent. Sur un seul GPU 5090 limité par PCIE 4.0, Krasis montre :

Une vitesse de préremplissage 8,9 fois plus rapide
Une vitesse de décodage 4,7 fois plus rapide

Les résultats de benchmark spécifiques pour Qwen3-Coder-Next montrent Krasis fonctionnant sur un seul GPU 5080 16GB atteignant :

1801 tokens/sec en préremplissage
26,8 tokens/sec en décodage

Cela surpasse llama.cpp fonctionnant sur un GPU 5090 32GB avec déchargement de couches.

Changements d'architecture

La dernière version de Krasis a abandonné le système à double format et exécute désormais entièrement le préremplissage et le décodage sur GPU avec différentes stratégies d'optimisation pour chaque phase. Ce changement architectural entraîne :

Des exigences CPU réduites
Moins de dépendance à la vitesse de la mémoire RAM système
Une utilisation globale de la RAM système plus faible (nécessite maintenant seulement assez pour le modèle quantifié plus une certaine marge, comparé à l'exigence précédente de 2,5x le modèle)

Modèles pris en charge et performance

Les modèles actuellement pris en charge avec leurs performances sur un seul GPU 5090 (PCIE 4.0) sont :

Qwen3.5-35B-A3B : 4475 préremplissage, 109,1 décodage
Qwen3-Coder-Next : 3560 préremplissage, 70,3 décodage
Qwen3.5-122B-A10B : 2897 préremplissage, 27,7 décodage
Qwen3-235B-A22B : 2124 préremplissage, 9,3 décodage

Plans de développement futurs

Le développeur prévoit de :

Ajouter la prise en charge des modèles Nvidia Nemotron, ciblant spécifiquement Nemotron Super pour les GPU grand public comme le 5080
Potentiellement prendre en charge des modèles Nemotron plus grands lorsqu'ils seront publiés
Élargir la prise en charge des IDE et des outils pour Opencode et Aider

Fonctionnalités actuelles

Krasis propose actuellement :

Un serveur compatible OpenAI
Une installation en une seule ligne
Disponibilité sur GitHub

📖 Read the full source: r/LocalLLaMA

Krasis LLM Runtime présente des améliorations de vitesse de 8,9x en préremplissage et de 4,7x en décodage par rapport à Llama.cpp.

Benchmarks de performance

Changements d'architecture

Modèles pris en charge et performance

Plans de développement futurs

Fonctionnalités actuelles

👀 See Also

Système d'exploitation open-source pour agents : Un OS basé sur Rust pour agents IA avec sandboxing WASM et fonctionnalité Hands

Orc : Orchestrateur Multi-Projets Open Source pour Agents d'IA de Codage

Extension de navigateur WeAreHere et outils MCP analysent les pratiques de confidentialité des sites web

Claude Code délègue le codage à Mistral/DeepSeek : 57M tokens économisés, réduction des coûts de 90 à 100%