O Krasis LLM Runtime Apresenta Melhorias de 8,9x na Velocidade de Preenchimento e 4,7x na Velocidade de Decodificação em Relação ao Llama.cpp

✍️ OpenClawRadar📅 Publicado: March 17, 2026🔗 Source
O Krasis LLM Runtime Apresenta Melhorias de 8,9x na Velocidade de Preenchimento e 4,7x na Velocidade de Decodificação em Relação ao Llama.cpp
Ad

Benchmarks de Desempenho

O Krasis demonstra melhorias significativas de desempenho em comparação com o llama.cpp ao ser executado em hardware equivalente. Em uma única GPU 5090 limitada por PCIE 4.0, o Krasis mostra:

  • Velocidade de preenchimento 8,9x mais rápida
  • Velocidade de decodificação 4,7x mais rápida

Resultados específicos de benchmark para o Qwen3-Coder-Next mostram o Krasis sendo executado em uma única GPU 5080 de 16GB alcançando:

  • 1801 tokens/seg no preenchimento
  • 26,8 tokens/seg na decodificação

Isso supera o llama.cpp sendo executado em uma GPU 5090 de 32GB com descarregamento de camadas.

Mudanças na Arquitetura

A versão mais recente do Krasis abandonou o sistema de formato duplo e agora executa tanto o preenchimento quanto a decodificação inteiramente na GPU com diferentes estratégias de otimização para cada fase. Essa mudança arquitetônica resulta em:

  • Requisitos reduzidos de CPU
  • Menor dependência da velocidade da memória RAM do sistema
  • Uso geral menor de RAM do sistema (agora precisa apenas do suficiente para o modelo quantizado mais alguma sobrecarga, comparado ao requisito anterior de 2,5x do modelo)
Ad

Modelos Suportados e Desempenho

Os modelos atualmente suportados com seu desempenho em uma única GPU 5090 (PCIE 4.0) são:

  • Qwen3.5-35B-A3B: 4475 preenchimento, 109,1 decodificação
  • Qwen3-Coder-Next: 3560 preenchimento, 70,3 decodificação
  • Qwen3.5-122B-A10B: 2897 preenchimento, 27,7 decodificação
  • Qwen3-235B-A22B: 2124 preenchimento, 9,3 decodificação

Planos Futuros de Desenvolvimento

O desenvolvedor planeja:

  • Adicionar suporte para modelos Nvidia Nemotron, visando especificamente o Nemotron Super para GPUs de consumo como a 5080
  • Potencialmente suportar modelos Nemotron maiores quando lançados
  • Expandir o suporte a IDE e ferramentas para Opencode e Aider

Recursos Atuais

O Krasis atualmente oferece:

  • Servidor compatível com OpenAI
  • Instalação em linha única
  • Disponibilidade no GitHub

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also