Rodando Qwen3.6 27B e 35B em 6GB de VRAM com ik_llama: Configurações Práticas e Benchmarks

Um usuário do Reddit relata que conseguiu executar com sucesso os modelos Qwen3.6 27B e 35B A3B em um notebook gamer antigo com uma RTX 2060 Mobile (6 GB de VRAM) e 32 GB de RAM usando ik_llama e llama.cpp. As principais otimizações incluem decodificação especulativa dupla com MTP e ngram, --fit e --mtp-requantize-output-tensor, além de repacotamento do tensor de saída. Abaixo estão as configurações exatas e as velocidades observadas.
Configuração para Qwen3.6 27B (Q3_K_XL)
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
-c 16000 \
-b 512 -ub 512 \
--fit --fit-margin 3076 \
-fa on \
-np 1 \
-ctk q4_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=1,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
Configuração para Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill)
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
-c 80000 \
-b 1024 -ub 1024 \
--fit --fit-margin 2048 \
-fa on \
-np 1 \
-ctk q8_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--mlock --no-mmap \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=3,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
Números de Desempenho
- 27B: preenchimento ~100 t/s, primeiro token até 4 t/s, ~1 t/s com contexto de 10k
- 35B A3B: preenchimento ~40 t/s, primeiro token até 15 t/s, constante ~11 t/s com contexto de 10k
O usuário observa que o 27B se tornou utilizável para raciocínio sobre arquivos de até 1000 linhas (levando minutos, mas útil), e o 35B Opus distill roda com saída estável de 11 t/s. Ele o utiliza para gerar gráficos mermaid, imagens, markdown e PDFs com fluxos de trabalho de codificação little-coder ou agentes.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

O Problema da Voz do LLM: Evitando Padrões de Escrita Gerados por IA
Um desenvolvedor discute o problema comum de textos escritos com assistência de LLM apresentarem "LLM-ismos" reconhecíveis que acionam imediatamente a detecção de IA, e compartilha um artigo sobre como identificar esses padrões e editar para autenticidade.

Otimizando Qwen 3.6 27B/35B em RTX 3090: Flags, Quantização e Roteamento Automático
Um usuário compartilha suas flags do llama-server para os modelos GGUF Qwen 3.6 27B e 35B em uma RTX 3090 (24GB), relatando velocidades lentas para o 35B e saída de código não confiável do 27B. A postagem pede melhor quant, ajuste de flags e troca automática de modelo.

Aproveitando as Habilidades do Agente para Escrever Kernels CUDA com Upskill
A Hugging Face apresenta uma abordagem prática para aprimorar modelos na escrita de kernels CUDA usando a nova ferramenta Upskill, melhorando a eficiência do modelo por meio de habilidades de agentes.

Instalação do OpenClaw no MacBook Pro Usando Homebrew Local e NVM
Um usuário instalou com sucesso o OpenClaw em um MacBook Pro usando uma conta não administrativa com Homebrew local, NVM v0.40.4, Python 3.14.3 via pyenv, Node 24 e o LLM Qwen3.5-122B-A10B-MLX-vision-4.7-bit através do oMLX.