Krasis: Runtime Híbrido CPU/GPU para Grandes Modelos MoE Alcança 3.324 tok/s de Preenchimento no RTX 5080

✍️ OpenClawRadar📅 Publicado: February 27, 2026🔗 Source
Krasis: Runtime Híbrido CPU/GPU para Grandes Modelos MoE Alcança 3.324 tok/s de Preenchimento no RTX 5080
Ad

Krasis é um runtime híbrido CPU/GPU projetado especificamente para grandes modelos de Mistura de Especialistas (MoE). A abordagem principal utiliza a GPU para a fase computacionalmente intensiva de preenchimento, enquanto a CPU lida com a decodificação, com a RAM do sistema fornecendo capacidade adicional para maximizar o desempenho.

Resultados de Benchmark

Configuração RTX 5080:

  • Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
  • Qwen3-Coder-Next (80B) Q4: 3.324 tokens/s preenchimento, 9,7s TTFT (contexto de 35K), 14,9 tokens/s decodificação

Configuração EPYC:

  • Hardware: AMD EPYC 7742 (64 núcleos), DDR4-2666 8 canais, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
  • Qwen3-Coder-Next (80B) Q4: 1.060 tokens/s preenchimento, 18,9s TTFT, 15,8 tokens/s decodificação
  • Qwen3-Coder-Next (80B) Q8: 873 tokens/s preenchimento, 40,1s TTFT, 12,4 tokens/s decodificação
  • Qwen3.5-35B-A3B Q4: 1.374 tokens/s preenchimento, 14,6s TTFT, 15,0 tokens/s decodificação
  • Qwen3-235B-A22B Q4: 289 tokens/s preenchimento, 69,1s TTFT, 3,4 tokens/s decodificação
  • DeepSeek V2-Lite (16B) Q4: 1.477 tokens/s preenchimento, 13,6s TTFT, 20,2 tokens/s decodificação
  • DeepSeek V2-Lite (16B) Q8: 1.317 tokens/s preenchimento, 15,2s TTFT, 17,8 tokens/s decodificação

Os benchmarks usaram prompts de 10K a 50K tokens para preenchimento (melhor de 20K/35K/50K relatado) e geração de 64 tokens para decodificação (média de 3 execuções).

Ad

Como Funciona

Ao contrário dos runtimes padrão que transferem apenas algumas camadas para a GPU e executam a maior parte do modelo na CPU, o Krasis trata a GPU como um mecanismo de computação em fluxo. Ele empurra o modelo através da VRAM o mais rápido possível, ocultando transferências sob computação simultânea. A GPU lida com a passagem completa de preenchimento, depois a CPU lida com a decodificação.

Compromissos

  • Consome muita RAM: Requer aproximadamente 2,5x o peso do modelo quantizado em RAM do sistema (ex.: ~100GB para Qwen3-Coder-Next em Q4)
  • Apenas placas NVIDIA
  • Especificamente direcionado a modelos MoE (a decodificação seria lenta em modelos densos)
  • A primeira execução é lenta devido ao pré-processamento e cache
  • Consome muito disco: Requer o arquivo original safetensors BF16 e armazena modelos transcodificados em cache (~2x o tamanho do modelo quantizado)

Modelos Suportados

Qwen3-Coder-Next (mais testado), Qwen3.5-35B-A3B, Qwen3-235B-A22B e DeepSeek V2-Lite. Outros modelos em breve.

Detalhes Técnicos

  • Escrito em Rust + Python (para orquestração)
  • API compatível com OpenAI (funciona com Cursor, OpenCode, etc.)
  • Lançador interativo para configuração
  • Licenciado SSPL (livre para usar, modificar, distribuir)
  • GitHub: https://github.com/brontoguana/krasis

O desenvolvedor está buscando feedback sobre quais modelos suportar a seguir, opiniões sobre os compromissos e benchmarks de usuários com placas da série 5 e PCIe 5.0.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Plugin Peek para Claude Code: Navegação Automática pela Memória da Sessão
Tools

Plugin Peek para Claude Code: Navegação Automática pela Memória da Sessão

Peek é um plugin do Claude Code que captura e injeta automaticamente correções e preferências dos usuários para direcionar o assistente de IA. Ele usa busca por fusão com embeddings, BM25, decaimento temporal e filtros de metadados para fornecer contexto relevante sem solicitação manual.

OpenClawRadar
Org Studio: Painel de código aberto para gerenciar equipes de IA multiagente
Tools

Org Studio: Painel de código aberto para gerenciar equipes de IA multiagente

Org Studio é um painel de código aberto que aplica princípios de design organizacional para coordenar equipes de agentes de IA, com suporte nativo para os tempos de execução do OpenClaw e do Hermes Agent. Ele apresenta gerenciamento de topologia de equipe, quadros de tarefas orientados por eventos e comunicação entre tempos de execução, onde os agentes podem mencionar uns aos outros nos comentários das tarefas.

OpenClawRadar
Servidor MCP Conecta Claude Code/Desktop ao Apple Music — Listas de Reprodução, Pesquisa, Análise de Perfil
Tools

Servidor MCP Conecta Claude Code/Desktop ao Apple Music — Listas de Reprodução, Pesquisa, Análise de Perfil

Um novo servidor MCP permite que o Claude Code e o Claude Desktop controlem o Apple Music — liste playlists, pesquise músicas, crie playlists e analise padrões de escuta por meio de linguagem natural.

OpenClawRadar
Fundador da AgentMail Detalha Integração Nativa de Agentes Após OpenClaw Expor Bloqueio de CAPTCHA
Tools

Fundador da AgentMail Detalha Integração Nativa de Agentes Após OpenClaw Expor Bloqueio de CAPTCHA

O AgentMail, uma API de e-mail para agentes de IA, reconstruiu seu fluxo de integração depois que seu próprio agente OpenClaw falhou em um CAPTCHA da Cloudflare. O novo sistema oferece um único endpoint REST para criação programática de contas, mantendo humanos no ciclo para verificação.

OpenClawRadar