Krasis: Runtime Híbrido CPU/GPU Atinge 3.324 tok/s em MoE no RTX 5080

Krasis é um runtime híbrido CPU/GPU projetado especificamente para grandes modelos de Mistura de Especialistas (MoE). A abordagem principal utiliza a GPU para a fase computacionalmente intensiva de preenchimento, enquanto a CPU lida com a decodificação, com a RAM do sistema fornecendo capacidade adicional para maximizar o desempenho.

Resultados de Benchmark

Configuração RTX 5080:

Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4: 3.324 tokens/s preenchimento, 9,7s TTFT (contexto de 35K), 14,9 tokens/s decodificação

Configuração EPYC:

Hardware: AMD EPYC 7742 (64 núcleos), DDR4-2666 8 canais, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4: 1.060 tokens/s preenchimento, 18,9s TTFT, 15,8 tokens/s decodificação
Qwen3-Coder-Next (80B) Q8: 873 tokens/s preenchimento, 40,1s TTFT, 12,4 tokens/s decodificação
Qwen3.5-35B-A3B Q4: 1.374 tokens/s preenchimento, 14,6s TTFT, 15,0 tokens/s decodificação
Qwen3-235B-A22B Q4: 289 tokens/s preenchimento, 69,1s TTFT, 3,4 tokens/s decodificação
DeepSeek V2-Lite (16B) Q4: 1.477 tokens/s preenchimento, 13,6s TTFT, 20,2 tokens/s decodificação
DeepSeek V2-Lite (16B) Q8: 1.317 tokens/s preenchimento, 15,2s TTFT, 17,8 tokens/s decodificação

Os benchmarks usaram prompts de 10K a 50K tokens para preenchimento (melhor de 20K/35K/50K relatado) e geração de 64 tokens para decodificação (média de 3 execuções).

Como Funciona

Ao contrário dos runtimes padrão que transferem apenas algumas camadas para a GPU e executam a maior parte do modelo na CPU, o Krasis trata a GPU como um mecanismo de computação em fluxo. Ele empurra o modelo através da VRAM o mais rápido possível, ocultando transferências sob computação simultânea. A GPU lida com a passagem completa de preenchimento, depois a CPU lida com a decodificação.

Compromissos

Consome muita RAM: Requer aproximadamente 2,5x o peso do modelo quantizado em RAM do sistema (ex.: ~100GB para Qwen3-Coder-Next em Q4)
Apenas placas NVIDIA
Especificamente direcionado a modelos MoE (a decodificação seria lenta em modelos densos)
A primeira execução é lenta devido ao pré-processamento e cache
Consome muito disco: Requer o arquivo original safetensors BF16 e armazena modelos transcodificados em cache (~2x o tamanho do modelo quantizado)

Modelos Suportados

Qwen3-Coder-Next (mais testado), Qwen3.5-35B-A3B, Qwen3-235B-A22B e DeepSeek V2-Lite. Outros modelos em breve.

Detalhes Técnicos

Escrito em Rust + Python (para orquestração)
API compatível com OpenAI (funciona com Cursor, OpenCode, etc.)
Lançador interativo para configuração
Licenciado SSPL (livre para usar, modificar, distribuir)
GitHub: https://github.com/brontoguana/krasis

O desenvolvedor está buscando feedback sobre quais modelos suportar a seguir, opiniões sobre os compromissos e benchmarks de usuários com placas da série 5 e PCIe 5.0.

📖 Leia a fonte completa: r/LocalLLaMA

Krasis: Runtime Híbrido CPU/GPU para Grandes Modelos MoE Alcança 3.324 tok/s de Preenchimento no RTX 5080

Resultados de Benchmark

Como Funciona

Compromissos

Modelos Suportados

Detalhes Técnicos

👀 See Also

Outworked v0.3.0 adiciona suporte ao iMessage, navegador integrado e agendamento para agentes Claude Code.

Driftwatch V3 Lançado: Ferramenta de Monitoramento de Base de Código Assistida por IA

Claude-Real-Video: Extração de Quadros com Consciência de Cena + Transcrição para Qualquer LLM

De Replit para Local: Como um Desenvolvedor Usou Claude para Construir StillHere, um App de Chat Companheiro com IA Impulsionado por API