Otimizando Qwen3.5-9B no RTX 3070 Mobile: Benchmarks

Configuração de Hardware e Software

Um desenvolvedor documentou sua experiência otimizando inferência local em um laptop com GPU RTX 3070 Mobile (8GB de VRAM, efetivamente ~7.7GB utilizáveis). O sistema roda CachyOS (Linux 6.19 baseado em Arch) com 32GB de RAM e CPU Intel i7-10750H. Eles usaram ik_llama.cpp (fork otimizado de llama.cpp de ikawrakow) com o modelo Qwen3.5-9B Q4_K_M de Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF.

Problemas Iniciais de Configuração

A configuração inicial ingênua incluía vários problemas:

Flags específicas de MoE (--n-cpu-moe, -ger, -ser) foram aplicadas incorretamente a um modelo não-MoE (n_expert = 0)
--mlock estava falhando silenciosamente devido a limites de alocação de memória (requer ulimit -l unlimited ou entrada no limits.conf)
Tamanho do lote -b 4096 estava consumindo VRAM excessiva (2004 MiB de buffer de computação), quase 2GB em uma placa de 8GB

Esta configuração produziu velocidade de geração de ~47.8 t/s e avaliação de prompt de ~82 t/s com VRAM em ~97%.

Resultados da Otimização

Após corrigir os problemas de configuração e ajustar os tamanhos de lote para -b 2048 -ub 512 (reduzindo o buffer de computação para 501 MiB), o desenvolvedor testou diferentes configurações de cache KV:

Original (q4_0/q4_0, b4096): 47.8 t/s gen, 82.6 t/s prompt, ~97% VRAM
Flags corrigidas + b2048/ub512, q8_0K/q4_0V: 48.4 t/s gen, 189.9 t/s prompt, ~80% VRAM
q8_0K/q8_0V: 50.0 t/s gen, 213.0 t/s prompt, ~84% VRAM

A velocidade de avaliação de prompt aumentou dramaticamente de ~82 para ~213 t/s, principalmente devido à redução do tamanho do lote para liberar memória da GPU. Enquanto a velocidade de geração mostrou mudança mínima (~2% de diferença entre q4_0 e q8_0), a configuração q8_0/q8_0 produziu respostas notavelmente mais coerentes e completas em saídas mais longas, valendo o uso extra de ~256 MiB de VRAM.

Configuração Final

O comando otimizado para uso de servidor local de usuário único:

./build/bin/llama-server \
 -m ./models/Qwen3.5-9B.Q4_K_M.gguf \
 -ngl 999 \
 -fa on \
 -c 65536 \
 -b 2048 \
 -ub 512 \
 -ctk q8_0 \
 -ctv q8_0 \
 --threads 6 \
 --threads-batch 12

Perguntas Abertas e Testes Futuros

O desenvolvedor identificou várias áreas para investigação adicional:

Ajuste do limite de potência da GPU em GPUs móveis (potencial para reduzir TGP com perda mínima de velocidade, já que a inferência é limitada pela largura de banda da memória)
Outros modelos compatíveis com 8GB com bom desempenho em codificação ou raciocínio
Comparação de ik_llama.cpp vs llama.cpp principal (otimizações específicas do ik incluem operações fundidas e reutilização de gráficos)
Dicas para arquitetura híbrida SSM (avisos de mudança de contexto causam paradas bruscas quando o contexto enche, sem janela deslizante)

O teste usou um prompt solicitando a implementação de um programa Rust do Crivo de Eratóstenes com explicação do algoritmo, análise de complexidade e exemplo de saída para N=50.

📖 Leia a fonte completa: r/LocalLLaMA