Qwen3.5 27B vs Modelos Maiores: Teste Local com 2x RTX 3090

Um desenvolvedor testou vários modelos de linguagem grandes para tarefas de programação local, comparando desempenho e requisitos de hardware. O teste focou em variantes do Qwen3.5 e modelos Nemotron, com comparações ao GPT-5.4 High.

Resultados e Descobertas dos Testes

O desenvolvedor testou estes modelos específicos:

unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-122B-A10B-GGUF
unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
unsloth/gpt-oss-120b-GGUF:F16

Principais descobertas dos testes:

Nemotron-3-Super-120B teve desempenho "muito, muito bom", equivalente ao GPT-5.4 High
Qwen3.5-27B teve bom desempenho para tarefas de desenvolvimento
GPT-OSS-120B e Qwen3.5-122B tiveram desempenho inferior aos outros dois modelos
Nemotron-3-Super-120B respondeu consistentemente em espanhol (idioma nativo do testador) enquanto os outros responderam em inglês

Métricas de Desempenho

O desenvolvedor forneceu números específicos de desempenho:

Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 processamento de prompt (pp), contexto de 100k no vast.ai com 4x RTX 3090
Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k no vast.ai

Requisitos de Hardware

O desenvolvedor observou limitações de hardware:

Qwen3.5-122B exigiria uma nova placa-mãe e mais 1-2 placas RTX 3090, tornando-o muito caro
Qwen3.5-27B roda no hardware existente de 2x RTX 3090 sem investimento adicional
Se tivessem o hardware para Nemotron-3-Super-120B, usariam ele em vez disso

Detalhes de Implementação

O desenvolvedor planeja usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tarefas reais de desenvolvimento localmente e forneceu o comando llama.cpp usado para testes:

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

O desenvolvedor mencionou que continuará usando CODEX para tarefas complexas, mas pode substituir assinaturas de API para tarefas diárias pela configuração local.

📖 Read the full source: r/LocalLLaMA