Krasis LLM 8.9x Mais Rápido Que Llama.cpp No Qwen3.5-122B

Benchmarks de Desempenho

O Krasis demonstra melhorias significativas de desempenho em comparação com o llama.cpp ao ser executado em hardware equivalente. Em uma única GPU 5090 limitada por PCIE 4.0, o Krasis mostra:

Velocidade de preenchimento 8,9x mais rápida
Velocidade de decodificação 4,7x mais rápida

Resultados específicos de benchmark para o Qwen3-Coder-Next mostram o Krasis sendo executado em uma única GPU 5080 de 16GB alcançando:

1801 tokens/seg no preenchimento
26,8 tokens/seg na decodificação

Isso supera o llama.cpp sendo executado em uma GPU 5090 de 32GB com descarregamento de camadas.

Mudanças na Arquitetura

A versão mais recente do Krasis abandonou o sistema de formato duplo e agora executa tanto o preenchimento quanto a decodificação inteiramente na GPU com diferentes estratégias de otimização para cada fase. Essa mudança arquitetônica resulta em:

Requisitos reduzidos de CPU
Menor dependência da velocidade da memória RAM do sistema
Uso geral menor de RAM do sistema (agora precisa apenas do suficiente para o modelo quantizado mais alguma sobrecarga, comparado ao requisito anterior de 2,5x do modelo)

Modelos Suportados e Desempenho

Os modelos atualmente suportados com seu desempenho em uma única GPU 5090 (PCIE 4.0) são:

Qwen3.5-35B-A3B: 4475 preenchimento, 109,1 decodificação
Qwen3-Coder-Next: 3560 preenchimento, 70,3 decodificação
Qwen3.5-122B-A10B: 2897 preenchimento, 27,7 decodificação
Qwen3-235B-A22B: 2124 preenchimento, 9,3 decodificação

Planos Futuros de Desenvolvimento

O desenvolvedor planeja:

Adicionar suporte para modelos Nvidia Nemotron, visando especificamente o Nemotron Super para GPUs de consumo como a 5080
Potencialmente suportar modelos Nemotron maiores quando lançados
Expandir o suporte a IDE e ferramentas para Opencode e Aider

Recursos Atuais

O Krasis atualmente oferece:

Servidor compatível com OpenAI
Instalação em linha única
Disponibilidade no GitHub

📖 Leia a fonte completa: r/LocalLLaMA

O Krasis LLM Runtime Apresenta Melhorias de 8,9x na Velocidade de Preenchimento e 4,7x na Velocidade de Decodificação em Relação ao Llama.cpp

Benchmarks de Desempenho

Mudanças na Arquitetura

Modelos Suportados e Desempenho

Planos Futuros de Desenvolvimento

Recursos Atuais

👀 See Also

Aplicativo Claude Desktop Adiciona Recurso de Projetos à Interface de Colaboração

FixAI Dev: Um Jogo de Direitos do Consumidor Usando Claude Haiku com Contratos JSON Estritos

Simplificando a Automação com os Wrappers OpenClaw

js-notepad: Um Bloco de Notas Programável com Servidor MCP Integrado para Claude Code