Benchmarks de 12GB VRAM: Executando Modelos Qwen 3.6 e Gemma 4 em uma RTX 4070 Super

✍️ OpenClawRadar📅 Publicado: April 30, 2026🔗 Source

Um usuário do Reddit publicou benchmarks de velocidade para executar vários modelos MoE grandes em uma RTX 4070 Super de 12 GB (com +10% de overclock), emparelhada com uma CPU AMD 9800X3D e 64 GB de RAM DDR5-6000. O usuário desloca a exibição para a iGPU para economizar VRAM, notando uma penalidade de desempenho de ~10% caso contrário. A configuração usa CUDA 13.1 e a versão mais recente do llama.cpp com a seguinte configuração de hardware:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Resultados do Benchmark

O usuário testou quatro modelos via Unsloth GGUF quants no VS Code com Cline e KiloCode (sem problemas de chamada de ferramenta). Todas as medidas estão em tokens por segundo (tgs) e processamento por segundo (pps).

Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps

Detalhes da Configuração Notáveis

O usuário compartilhou configurações individuais de cada modelo com ajustes específicos. Principais destaques:

Para Qwen3.6-35B-A3B: n-cpu-moe = 35 (descarrega 35 especialistas MoE para a CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, tamanho de contexto 131072, raciocínio habilitado com orçamento 8096.
Para Gemma 4 26B: n-cpu-moe = 27, contexto 102400, fit = on com fit-target = 256 e fit-ctx = 32768.
Para Gemma 4 31B: usa decodificação especulativa com ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (descarregamento parcial da GPU), cache-type-k = q4_0, no-kv-offload = true.
Todos os modelos usam flash-attn = true e no-mmproj-offload = true.

O modelo preferido do usuário para desenvolvimento web é o Qwen3.6-35B-A3B, elogiando sua qualidade sem problemas de chamada de ferramenta nas extensões do VS Code.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Guides

Como Reivindicar e Estender Créditos da API da Anthropic Usando o Roteador do Manifest

Uma postagem no Reddit detalha os passos para reivindicar até US$ 200 em créditos gratuitos da API da Anthropic e configurar o roteador do Manifest para direcionar automaticamente os prompts para modelos mais baratos, como o Haiku, para tarefas simples, estendendo a vida útil dos créditos de um mês para vários meses.

Apr 14, 2026, 09:02 PM UTC

OpenClawRadar

Guides

Tratamento de Desconexões de Gateway para Automação Eficaz

Explore soluções práticas para manter as operações de agentes de codificação de IA ao enfrentar desconexões do gateway. Dicas incluem monitoramento com Grafana, scripts de reconexão automatizados e uso de caminhos redundantes para confiabilidade.

Apr 20, 2026, 05:38 PM UTC

OpenClawRadar

Guides

Problemas e Soluções de Configuração do NemoClaw no Windows

As instalações do NemoClaw no Windows falham com três erros específicos: ambiente não suportado no Git Bash, porta 18789 já em uso e falha na construção do Docker durante a instalação do OpenClaw. A causa raiz é que o NemoClaw não foi desenvolvido com o Windows em mente, exigindo o WSL2 Ubuntu para uma configuração bem-sucedida.

Apr 19, 2026, 04:45 AM UTC

OpenClawRadar

Guides

Como um Agente Inativo Queimava 50M Tokens por Dia – e Como Corrigir Isso

Um agente OpenClaw ocioso queimava 50 milhões de tokens por dia com pings de heartbeat em uma sessão inchada. Um usuário do Reddit conta como rastreou o vazamento e o corrigiu com alterações na configuração.

Jun 30, 2026, 12:18 AM UTC

OpenClawRadar