Krasis LLM Runtime présente des améliorations de vitesse de 8,9x en préremplissage et de 4,7x en décodage par rapport à Llama.cpp.

✍️ OpenClawRadar📅 Publié: March 17, 2026🔗 Source
Krasis LLM Runtime présente des améliorations de vitesse de 8,9x en préremplissage et de 4,7x en décodage par rapport à Llama.cpp.
Ad

Benchmarks de performance

Krasis démontre des améliorations significatives de performance par rapport à llama.cpp lors de l'exécution sur du matériel équivalent. Sur un seul GPU 5090 limité par PCIE 4.0, Krasis montre :

  • Une vitesse de préremplissage 8,9 fois plus rapide
  • Une vitesse de décodage 4,7 fois plus rapide

Les résultats de benchmark spécifiques pour Qwen3-Coder-Next montrent Krasis fonctionnant sur un seul GPU 5080 16GB atteignant :

  • 1801 tokens/sec en préremplissage
  • 26,8 tokens/sec en décodage

Cela surpasse llama.cpp fonctionnant sur un GPU 5090 32GB avec déchargement de couches.

Changements d'architecture

La dernière version de Krasis a abandonné le système à double format et exécute désormais entièrement le préremplissage et le décodage sur GPU avec différentes stratégies d'optimisation pour chaque phase. Ce changement architectural entraîne :

  • Des exigences CPU réduites
  • Moins de dépendance à la vitesse de la mémoire RAM système
  • Une utilisation globale de la RAM système plus faible (nécessite maintenant seulement assez pour le modèle quantifié plus une certaine marge, comparé à l'exigence précédente de 2,5x le modèle)
Ad

Modèles pris en charge et performance

Les modèles actuellement pris en charge avec leurs performances sur un seul GPU 5090 (PCIE 4.0) sont :

  • Qwen3.5-35B-A3B : 4475 préremplissage, 109,1 décodage
  • Qwen3-Coder-Next : 3560 préremplissage, 70,3 décodage
  • Qwen3.5-122B-A10B : 2897 préremplissage, 27,7 décodage
  • Qwen3-235B-A22B : 2124 préremplissage, 9,3 décodage

Plans de développement futurs

Le développeur prévoit de :

  • Ajouter la prise en charge des modèles Nvidia Nemotron, ciblant spécifiquement Nemotron Super pour les GPU grand public comme le 5080
  • Potentiellement prendre en charge des modèles Nemotron plus grands lorsqu'ils seront publiés
  • Élargir la prise en charge des IDE et des outils pour Opencode et Aider

Fonctionnalités actuelles

Krasis propose actuellement :

  • Un serveur compatible OpenAI
  • Une installation en une seule ligne
  • Disponibilité sur GitHub

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

120 modèles de prompts testés : 8 fonctionnent vraiment pour Claude Code
Tools

120 modèles de prompts testés : 8 fonctionnent vraiment pour Claude Code

Un test empirique de 3 mois sur 120 modèles de prompt pour Claude Code donne 8 commandes exploitables et 5 prompts de validation. Modèles clés : L99 (réduit les hésitations), /ghost (supprime la voix IA), OODA (raisonnement structuré), ULTRATHINK (raisonnement profond), HARDMODE (débogage par contraintes).

OpenClawRadar
La compétence Claude Code combine les approches de DeepMind Aletheia et d'Anthropic harness.
Tools

La compétence Claude Code combine les approches de DeepMind Aletheia et d'Anthropic harness.

Une compétence Claude Code implémente un pipeline Planificateur → Générateur → Évaluateur → Réviseur qui synthétise l'agent de recherche mathématique Aletheia de DeepMind avec l'architecture de codage multi-agent d'Anthropic, ajoutant une pré-analyse à l'aveugle où l'évaluateur raisonne sur les approches correctes avant de voir le code candidat.

OpenClawRadar
AgentPVP : Une arène de compétition LLM centrée sur les agents avec ELO, rivalités et bac à sable d'injection de prompts
Tools

AgentPVP : Une arène de compétition LLM centrée sur les agents avec ELO, rivalités et bac à sable d'injection de prompts

AgentPVP permet aux agents LLM de s'inscrire, de jouer à 5 jeux de société via des API JSON, de maintenir un ELO par jeu, d'écrire des fichiers de rivalité et de s'insulter dans un salon global. Le HTML est facultatif — l'API est le site.

OpenClawRadar
Mengram AI : Outil de Mémoire Automatique pour les Sessions de Code Claude
Tools

Mengram AI : Outil de Mémoire Automatique pour les Sessions de Code Claude

Mengram AI maintient automatiquement le contexte entre les sessions Claude Code en chargeant les profils cognitifs, en injectant le contexte passé pertinent dans les invites et en sauvegardant les nouvelles connaissances. Il stocke une mémoire sémantique, épisodique et procédurale qui évolue en fonction des échecs.

OpenClawRadar