Krasis: Runtime Híbrido CPU/GPU para Grandes Modelos MoE Alcança 3.324 tok/s de Preenchimento no RTX 5080

Krasis é um runtime híbrido CPU/GPU projetado especificamente para grandes modelos de Mistura de Especialistas (MoE). A abordagem principal utiliza a GPU para a fase computacionalmente intensiva de preenchimento, enquanto a CPU lida com a decodificação, com a RAM do sistema fornecendo capacidade adicional para maximizar o desempenho.
Resultados de Benchmark
Configuração RTX 5080:
- Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
- Qwen3-Coder-Next (80B) Q4: 3.324 tokens/s preenchimento, 9,7s TTFT (contexto de 35K), 14,9 tokens/s decodificação
Configuração EPYC:
- Hardware: AMD EPYC 7742 (64 núcleos), DDR4-2666 8 canais, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
- Qwen3-Coder-Next (80B) Q4: 1.060 tokens/s preenchimento, 18,9s TTFT, 15,8 tokens/s decodificação
- Qwen3-Coder-Next (80B) Q8: 873 tokens/s preenchimento, 40,1s TTFT, 12,4 tokens/s decodificação
- Qwen3.5-35B-A3B Q4: 1.374 tokens/s preenchimento, 14,6s TTFT, 15,0 tokens/s decodificação
- Qwen3-235B-A22B Q4: 289 tokens/s preenchimento, 69,1s TTFT, 3,4 tokens/s decodificação
- DeepSeek V2-Lite (16B) Q4: 1.477 tokens/s preenchimento, 13,6s TTFT, 20,2 tokens/s decodificação
- DeepSeek V2-Lite (16B) Q8: 1.317 tokens/s preenchimento, 15,2s TTFT, 17,8 tokens/s decodificação
Os benchmarks usaram prompts de 10K a 50K tokens para preenchimento (melhor de 20K/35K/50K relatado) e geração de 64 tokens para decodificação (média de 3 execuções).
Como Funciona
Ao contrário dos runtimes padrão que transferem apenas algumas camadas para a GPU e executam a maior parte do modelo na CPU, o Krasis trata a GPU como um mecanismo de computação em fluxo. Ele empurra o modelo através da VRAM o mais rápido possível, ocultando transferências sob computação simultânea. A GPU lida com a passagem completa de preenchimento, depois a CPU lida com a decodificação.
Compromissos
- Consome muita RAM: Requer aproximadamente 2,5x o peso do modelo quantizado em RAM do sistema (ex.: ~100GB para Qwen3-Coder-Next em Q4)
- Apenas placas NVIDIA
- Especificamente direcionado a modelos MoE (a decodificação seria lenta em modelos densos)
- A primeira execução é lenta devido ao pré-processamento e cache
- Consome muito disco: Requer o arquivo original safetensors BF16 e armazena modelos transcodificados em cache (~2x o tamanho do modelo quantizado)
Modelos Suportados
Qwen3-Coder-Next (mais testado), Qwen3.5-35B-A3B, Qwen3-235B-A22B e DeepSeek V2-Lite. Outros modelos em breve.
Detalhes Técnicos
- Escrito em Rust + Python (para orquestração)
- API compatível com OpenAI (funciona com Cursor, OpenCode, etc.)
- Lançador interativo para configuração
- Licenciado SSPL (livre para usar, modificar, distribuir)
- GitHub: https://github.com/brontoguana/krasis
O desenvolvedor está buscando feedback sobre quais modelos suportar a seguir, opiniões sobre os compromissos e benchmarks de usuários com placas da série 5 e PCIe 5.0.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Plugin Peek para Claude Code: Navegação Automática pela Memória da Sessão
Peek é um plugin do Claude Code que captura e injeta automaticamente correções e preferências dos usuários para direcionar o assistente de IA. Ele usa busca por fusão com embeddings, BM25, decaimento temporal e filtros de metadados para fornecer contexto relevante sem solicitação manual.

Org Studio: Painel de código aberto para gerenciar equipes de IA multiagente
Org Studio é um painel de código aberto que aplica princípios de design organizacional para coordenar equipes de agentes de IA, com suporte nativo para os tempos de execução do OpenClaw e do Hermes Agent. Ele apresenta gerenciamento de topologia de equipe, quadros de tarefas orientados por eventos e comunicação entre tempos de execução, onde os agentes podem mencionar uns aos outros nos comentários das tarefas.

Servidor MCP Conecta Claude Code/Desktop ao Apple Music — Listas de Reprodução, Pesquisa, Análise de Perfil
Um novo servidor MCP permite que o Claude Code e o Claude Desktop controlem o Apple Music — liste playlists, pesquise músicas, crie playlists e analise padrões de escuta por meio de linguagem natural.

Fundador da AgentMail Detalha Integração Nativa de Agentes Após OpenClaw Expor Bloqueio de CAPTCHA
O AgentMail, uma API de e-mail para agentes de IA, reconstruiu seu fluxo de integração depois que seu próprio agente OpenClaw falhou em um CAPTCHA da Cloudflare. O novo sistema oferece um único endpoint REST para criação programática de contas, mantendo humanos no ciclo para verificação.