Benchmarks de 12GB VRAM: Executando Modelos Qwen 3.6 e Gemma 4 em uma RTX 4070 Super

Um usuário do Reddit publicou benchmarks de velocidade para executar vários modelos MoE grandes em uma RTX 4070 Super de 12 GB (com +10% de overclock), emparelhada com uma CPU AMD 9800X3D e 64 GB de RAM DDR5-6000. O usuário desloca a exibição para a iGPU para economizar VRAM, notando uma penalidade de desempenho de ~10% caso contrário. A configuração usa CUDA 13.1 e a versão mais recente do llama.cpp com a seguinte configuração de hardware:
n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true
Resultados do Benchmark
O usuário testou quatro modelos via Unsloth GGUF quants no VS Code com Cline e KiloCode (sem problemas de chamada de ferramenta). Todas as medidas estão em tokens por segundo (tgs) e processamento por segundo (pps).
- Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
- Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
- Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
- Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
Detalhes da Configuração Notáveis
O usuário compartilhou configurações individuais de cada modelo com ajustes específicos. Principais destaques:
- Para Qwen3.6-35B-A3B:
n-cpu-moe = 35(descarrega 35 especialistas MoE para a CPU),cache-type-k = q8_0,cache-type-v = q8_0,swa-full = true,cache-reuse = 512, tamanho de contexto 131072, raciocínio habilitado com orçamento 8096. - Para Gemma 4 26B:
n-cpu-moe = 27, contexto 102400,fit = oncomfit-target = 256efit-ctx = 32768. - Para Gemma 4 31B: usa decodificação especulativa com
ngram-mod(spec-type = ngram-mod),n-gpu-layers = 58(descarregamento parcial da GPU),cache-type-k = q4_0,no-kv-offload = true. - Todos os modelos usam
flash-attn = trueeno-mmproj-offload = true.
O modelo preferido do usuário para desenvolvimento web é o Qwen3.6-35B-A3B, elogiando sua qualidade sem problemas de chamada de ferramenta nas extensões do VS Code.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

30 dias de Claude para negócios freelance: 5 prompts que funcionam
Um freelancer testou o Claude diariamente por 30 dias e compartilha 5 prompts que reduziram a escrita de propostas de 45 para 5 minutos, aumentaram as taxas em 30% sem nenhuma objeção e triplicaram a taxa de resposta de pitches frios.

Começando com o OpenCode para Configuração de Agente de IA de Codificação Local
Um guia para iniciantes percorre a configuração do OpenCode como um agente de codificação de IA totalmente local usando os modelos otimizados da ByteShape com LM Studio, llama.cpp ou Ollama em Mac, Linux e Windows (WSL2).

Construindo um Sistema Completo de BI com Claude Code e Metabase por Menos de US$50/mês
Um usuário do Reddit construiu um sistema completo de BI usando Claude Code, BigQuery e Metabase auto-hospedado — substituindo orçamentos de especialistas de $15 mil por 3 dias de trabalho e $30/mês em custos de nuvem.

Limites de Taxa da API Claude: Janelas de Fuso Horário, Gerenciamento de Contexto e Sobrecarga do MCP
Análise dos limites de taxa da API Claude revela restrições mais rigorosas durante os horários de pico (5h-11h PT / 8h-14h ET em dias úteis), com o gerenciamento de contexto e o uso do servidor MCP impactando significativamente o consumo de tokens. Estratégias práticas incluem trabalhar fora dos horários de pico, iniciar conversas novas para novas tarefas e auditar integrações MCP.