O Krasis LLM Runtime Apresenta Melhorias de 8,9x na Velocidade de Preenchimento e 4,7x na Velocidade de Decodificação em Relação ao Llama.cpp

Benchmarks de Desempenho
O Krasis demonstra melhorias significativas de desempenho em comparação com o llama.cpp ao ser executado em hardware equivalente. Em uma única GPU 5090 limitada por PCIE 4.0, o Krasis mostra:
- Velocidade de preenchimento 8,9x mais rápida
- Velocidade de decodificação 4,7x mais rápida
Resultados específicos de benchmark para o Qwen3-Coder-Next mostram o Krasis sendo executado em uma única GPU 5080 de 16GB alcançando:
- 1801 tokens/seg no preenchimento
- 26,8 tokens/seg na decodificação
Isso supera o llama.cpp sendo executado em uma GPU 5090 de 32GB com descarregamento de camadas.
Mudanças na Arquitetura
A versão mais recente do Krasis abandonou o sistema de formato duplo e agora executa tanto o preenchimento quanto a decodificação inteiramente na GPU com diferentes estratégias de otimização para cada fase. Essa mudança arquitetônica resulta em:
- Requisitos reduzidos de CPU
- Menor dependência da velocidade da memória RAM do sistema
- Uso geral menor de RAM do sistema (agora precisa apenas do suficiente para o modelo quantizado mais alguma sobrecarga, comparado ao requisito anterior de 2,5x do modelo)
Modelos Suportados e Desempenho
Os modelos atualmente suportados com seu desempenho em uma única GPU 5090 (PCIE 4.0) são:
- Qwen3.5-35B-A3B: 4475 preenchimento, 109,1 decodificação
- Qwen3-Coder-Next: 3560 preenchimento, 70,3 decodificação
- Qwen3.5-122B-A10B: 2897 preenchimento, 27,7 decodificação
- Qwen3-235B-A22B: 2124 preenchimento, 9,3 decodificação
Planos Futuros de Desenvolvimento
O desenvolvedor planeja:
- Adicionar suporte para modelos Nvidia Nemotron, visando especificamente o Nemotron Super para GPUs de consumo como a 5080
- Potencialmente suportar modelos Nemotron maiores quando lançados
- Expandir o suporte a IDE e ferramentas para Opencode e Aider
Recursos Atuais
O Krasis atualmente oferece:
- Servidor compatível com OpenAI
- Instalação em linha única
- Disponibilidade no GitHub
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Como criei um site de rolagem 3D em 2 horas usando Claude Code e Veo
Um desenvolvedor criou um site com rolagem 3D em 2 horas usando Claude Code, geração de vídeo Veo e uma habilidade personalizada de 'vídeo para site'. Código completo e demonstração ao vivo compartilhados.

Servidor MCP para contexto de base de código empacotada em profundidade
Um novo servidor MCP empacota contexto de base de código em 5 níveis de profundidade dentro de orçamentos de tokens, abordando o problema em que agentes de IA para programação ou carregam poucos arquivos ou obtêm mapas de repositório planos sem conteúdo real.

Transformando o Código Claude em uma Equipe de Engenharia Autônoma
A configuração ~/.claude/ transforma o Claude Code em um sistema de compilação autônomo, gerando e testando código de forma independente.

ClawControl v1.7.1 corrige problemas de uso diário no cliente OpenClaw
ClawControl v1.7.1 é um cliente de código aberto para OpenClaw disponível no Windows, Mac, Linux, iOS e Android. Esta versão se concentra em corrigir problemas do tipo 'por que está fazendo isso?' encontrados durante o uso diário do OpenClaw.