Otimizando o Qwen3.5-9B no RTX 3070 Mobile com ik_llama.cpp: Ajustes de Configuração e Benchmarks

✍️ OpenClawRadar📅 Publicado: March 25, 2026🔗 Source
Otimizando o Qwen3.5-9B no RTX 3070 Mobile com ik_llama.cpp: Ajustes de Configuração e Benchmarks
Ad

Configuração de Hardware e Software

Um desenvolvedor documentou sua experiência otimizando inferência local em um laptop com GPU RTX 3070 Mobile (8GB de VRAM, efetivamente ~7.7GB utilizáveis). O sistema roda CachyOS (Linux 6.19 baseado em Arch) com 32GB de RAM e CPU Intel i7-10750H. Eles usaram ik_llama.cpp (fork otimizado de llama.cpp de ikawrakow) com o modelo Qwen3.5-9B Q4_K_M de Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF.

Problemas Iniciais de Configuração

A configuração inicial ingênua incluía vários problemas:

  • Flags específicas de MoE (--n-cpu-moe, -ger, -ser) foram aplicadas incorretamente a um modelo não-MoE (n_expert = 0)
  • --mlock estava falhando silenciosamente devido a limites de alocação de memória (requer ulimit -l unlimited ou entrada no limits.conf)
  • Tamanho do lote -b 4096 estava consumindo VRAM excessiva (2004 MiB de buffer de computação), quase 2GB em uma placa de 8GB

Esta configuração produziu velocidade de geração de ~47.8 t/s e avaliação de prompt de ~82 t/s com VRAM em ~97%.

Resultados da Otimização

Após corrigir os problemas de configuração e ajustar os tamanhos de lote para -b 2048 -ub 512 (reduzindo o buffer de computação para 501 MiB), o desenvolvedor testou diferentes configurações de cache KV:

  • Original (q4_0/q4_0, b4096): 47.8 t/s gen, 82.6 t/s prompt, ~97% VRAM
  • Flags corrigidas + b2048/ub512, q8_0K/q4_0V: 48.4 t/s gen, 189.9 t/s prompt, ~80% VRAM
  • q8_0K/q8_0V: 50.0 t/s gen, 213.0 t/s prompt, ~84% VRAM

A velocidade de avaliação de prompt aumentou dramaticamente de ~82 para ~213 t/s, principalmente devido à redução do tamanho do lote para liberar memória da GPU. Enquanto a velocidade de geração mostrou mudança mínima (~2% de diferença entre q4_0 e q8_0), a configuração q8_0/q8_0 produziu respostas notavelmente mais coerentes e completas em saídas mais longas, valendo o uso extra de ~256 MiB de VRAM.

Ad

Configuração Final

O comando otimizado para uso de servidor local de usuário único:

./build/bin/llama-server \
 -m ./models/Qwen3.5-9B.Q4_K_M.gguf \
 -ngl 999 \
 -fa on \
 -c 65536 \
 -b 2048 \
 -ub 512 \
 -ctk q8_0 \
 -ctv q8_0 \
 --threads 6 \
 --threads-batch 12

Perguntas Abertas e Testes Futuros

O desenvolvedor identificou várias áreas para investigação adicional:

  • Ajuste do limite de potência da GPU em GPUs móveis (potencial para reduzir TGP com perda mínima de velocidade, já que a inferência é limitada pela largura de banda da memória)
  • Outros modelos compatíveis com 8GB com bom desempenho em codificação ou raciocínio
  • Comparação de ik_llama.cpp vs llama.cpp principal (otimizações específicas do ik incluem operações fundidas e reutilização de gráficos)
  • Dicas para arquitetura híbrida SSM (avisos de mudança de contexto causam paradas bruscas quando o contexto enche, sem janela deslizante)

O teste usou um prompt solicitando a implementação de um programa Rust do Crivo de Eratóstenes com explicação do algoritmo, análise de complexidade e exemplo de saída para N=50.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Construindo uma plataforma de agentes de IA sem servidor na AWS por US$ 0,01/mês com Claude Code
Guides

Construindo uma plataforma de agentes de IA sem servidor na AWS por US$ 0,01/mês com Claude Code

Um desenvolvedor construiu uma plataforma serverless completa na AWS executando agentes de IA por aproximadamente US$ 0,01/mês usando Claude Code ao longo de 29 horas, eliminando componentes caros como NAT Gateway (US$ 32/mês) e ALB (US$ 18/mês). O projeto inclui 233 testes unitários, 35 testes E2E e é implantado com um único comando cdk deploy.

OpenClawRadar
Anthropic publica o Kit Campeão para adoção do Claude Code
Guides

Anthropic publica o Kit Campeão para adoção do Claude Code

Um manual para engenheiros promovendo o Claude Code em suas empresas: compartilhe prompts reutilizáveis, responda em canais públicos e organize um tópico semanal de mostra e conta — cerca de 40 minutos no total por semana.

OpenClawRadar
DeepSeek-V4-Flash W4A16+FP8 com MTP Autospeculação: 85 tok/s em 2x RTX PRO 6000 Max-Q
Guides

DeepSeek-V4-Flash W4A16+FP8 com MTP Autospeculação: 85 tok/s em 2x RTX PRO 6000 Max-Q

DeepSeek-V4-Flash quantizado para W4A16+FP8 alcança 85.52 tok/s em contexto de 524k em 2× RTX PRO 6000 Max-Q usando um vLLM modificado com cabeça MTP adaptada, contra 52.85 tok/s da linha de base.

OpenClawRadar
Configurando o OpenClaw para Comunicação Suave entre Agentes
Guides

Configurando o OpenClaw para Comunicação Suave entre Agentes

Um usuário do Reddit compartilha configurações específicas para o OpenClaw que reduzem os tempos limite na comunicação entre agentes, incluindo configurações de visibilidade de ferramentas, diretivas de memória e soluções alternativas para a limitação ANNOUNCE_SKIP.

OpenClawRadar