Otimizando o Qwen3.5-9B no RTX 3070 Mobile com ik_llama.cpp: Ajustes de Configuração e Benchmarks

Configuração de Hardware e Software
Um desenvolvedor documentou sua experiência otimizando inferência local em um laptop com GPU RTX 3070 Mobile (8GB de VRAM, efetivamente ~7.7GB utilizáveis). O sistema roda CachyOS (Linux 6.19 baseado em Arch) com 32GB de RAM e CPU Intel i7-10750H. Eles usaram ik_llama.cpp (fork otimizado de llama.cpp de ikawrakow) com o modelo Qwen3.5-9B Q4_K_M de Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF.
Problemas Iniciais de Configuração
A configuração inicial ingênua incluía vários problemas:
- Flags específicas de MoE (
--n-cpu-moe,-ger,-ser) foram aplicadas incorretamente a um modelo não-MoE (n_expert = 0) --mlockestava falhando silenciosamente devido a limites de alocação de memória (requerulimit -l unlimitedou entrada no limits.conf)- Tamanho do lote
-b 4096estava consumindo VRAM excessiva (2004 MiB de buffer de computação), quase 2GB em uma placa de 8GB
Esta configuração produziu velocidade de geração de ~47.8 t/s e avaliação de prompt de ~82 t/s com VRAM em ~97%.
Resultados da Otimização
Após corrigir os problemas de configuração e ajustar os tamanhos de lote para -b 2048 -ub 512 (reduzindo o buffer de computação para 501 MiB), o desenvolvedor testou diferentes configurações de cache KV:
- Original (q4_0/q4_0, b4096): 47.8 t/s gen, 82.6 t/s prompt, ~97% VRAM
- Flags corrigidas + b2048/ub512, q8_0K/q4_0V: 48.4 t/s gen, 189.9 t/s prompt, ~80% VRAM
- q8_0K/q8_0V: 50.0 t/s gen, 213.0 t/s prompt, ~84% VRAM
A velocidade de avaliação de prompt aumentou dramaticamente de ~82 para ~213 t/s, principalmente devido à redução do tamanho do lote para liberar memória da GPU. Enquanto a velocidade de geração mostrou mudança mínima (~2% de diferença entre q4_0 e q8_0), a configuração q8_0/q8_0 produziu respostas notavelmente mais coerentes e completas em saídas mais longas, valendo o uso extra de ~256 MiB de VRAM.
Configuração Final
O comando otimizado para uso de servidor local de usuário único:
./build/bin/llama-server \
-m ./models/Qwen3.5-9B.Q4_K_M.gguf \
-ngl 999 \
-fa on \
-c 65536 \
-b 2048 \
-ub 512 \
-ctk q8_0 \
-ctv q8_0 \
--threads 6 \
--threads-batch 12Perguntas Abertas e Testes Futuros
O desenvolvedor identificou várias áreas para investigação adicional:
- Ajuste do limite de potência da GPU em GPUs móveis (potencial para reduzir TGP com perda mínima de velocidade, já que a inferência é limitada pela largura de banda da memória)
- Outros modelos compatíveis com 8GB com bom desempenho em codificação ou raciocínio
- Comparação de ik_llama.cpp vs llama.cpp principal (otimizações específicas do ik incluem operações fundidas e reutilização de gráficos)
- Dicas para arquitetura híbrida SSM (avisos de mudança de contexto causam paradas bruscas quando o contexto enche, sem janela deslizante)
O teste usou um prompt solicitando a implementação de um programa Rust do Crivo de Eratóstenes com explicação do algoritmo, análise de complexidade e exemplo de saída para N=50.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Construindo uma plataforma de agentes de IA sem servidor na AWS por US$ 0,01/mês com Claude Code
Um desenvolvedor construiu uma plataforma serverless completa na AWS executando agentes de IA por aproximadamente US$ 0,01/mês usando Claude Code ao longo de 29 horas, eliminando componentes caros como NAT Gateway (US$ 32/mês) e ALB (US$ 18/mês). O projeto inclui 233 testes unitários, 35 testes E2E e é implantado com um único comando cdk deploy.

Anthropic publica o Kit Campeão para adoção do Claude Code
Um manual para engenheiros promovendo o Claude Code em suas empresas: compartilhe prompts reutilizáveis, responda em canais públicos e organize um tópico semanal de mostra e conta — cerca de 40 minutos no total por semana.

DeepSeek-V4-Flash W4A16+FP8 com MTP Autospeculação: 85 tok/s em 2x RTX PRO 6000 Max-Q
DeepSeek-V4-Flash quantizado para W4A16+FP8 alcança 85.52 tok/s em contexto de 524k em 2× RTX PRO 6000 Max-Q usando um vLLM modificado com cabeça MTP adaptada, contra 52.85 tok/s da linha de base.

Configurando o OpenClaw para Comunicação Suave entre Agentes
Um usuário do Reddit compartilha configurações específicas para o OpenClaw que reduzem os tempos limite na comunicação entre agentes, incluindo configurações de visibilidade de ferramentas, diretivas de memória e soluções alternativas para a limitação ANNOUNCE_SKIP.