Desenvolvedor Testa Qwen3.5 27B em Comparação com Modelos Maiores para Tarefas Locais de Programação

Um desenvolvedor testou vários modelos de linguagem grandes para tarefas de programação local, comparando desempenho e requisitos de hardware. O teste focou em variantes do Qwen3.5 e modelos Nemotron, com comparações ao GPT-5.4 High.
Resultados e Descobertas dos Testes
O desenvolvedor testou estes modelos específicos:
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
Principais descobertas dos testes:
- Nemotron-3-Super-120B teve desempenho "muito, muito bom", equivalente ao GPT-5.4 High
- Qwen3.5-27B teve bom desempenho para tarefas de desenvolvimento
- GPT-OSS-120B e Qwen3.5-122B tiveram desempenho inferior aos outros dois modelos
- Nemotron-3-Super-120B respondeu consistentemente em espanhol (idioma nativo do testador) enquanto os outros responderam em inglês
Métricas de Desempenho
O desenvolvedor forneceu números específicos de desempenho:
- Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 processamento de prompt (pp), contexto de 100k no vast.ai com 4x RTX 3090
- Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k no vast.ai
Requisitos de Hardware
O desenvolvedor observou limitações de hardware:
- Qwen3.5-122B exigiria uma nova placa-mãe e mais 1-2 placas RTX 3090, tornando-o muito caro
- Qwen3.5-27B roda no hardware existente de 2x RTX 3090 sem investimento adicional
- Se tivessem o hardware para Nemotron-3-Super-120B, usariam ele em vez disso
Detalhes de Implementação
O desenvolvedor planeja usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tarefas reais de desenvolvimento localmente e forneceu o comando llama.cpp usado para testes:
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
O desenvolvedor mencionou que continuará usando CODEX para tarefas complexas, mas pode substituir assinaturas de API para tarefas diárias pela configuração local.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude-Control: Controle Remoto Móvel para Sessões de Código Claude
Claude-control é uma ferramenta de código aberto que permite gerenciar sessões do Claude Code pelo seu telefone via HTTPS e WebSocket. Ele executa o Claude Code em um PTY real dentro do tmux, detecta solicitações de permissão e envia notificações push com botões Permitir/Negar.

AGI em md: 11 Níveis de Compressão Cognitiva para Prompts do Sistema Claude
Um repositório do GitHub documenta 11 níveis de compressão cognitiva que podem ser codificados em prompts de sistema do Claude, com o Nível 8 mudando da análise para a construção e melhorando o desempenho do Haiku de 0/3 para 4/4. O projeto inclui 28 prompts, 299 saídas brutas e logs completos de experimentos em 19 domínios.

Gerenciamento Eficiente de Tokens com Servidores MCP de Código Aberto: Pare
Os servidores Pare MCP reduzem o desperdício de tokens e aumentam a eficiência quando agentes de IA de codificação usam ferramentas de desenvolvimento, fornecendo saída estruturada.

Quanta-SDK v0.9.2 adiciona servidor MCP para execução de circuitos quânticos via agentes de IA
O Quanta-SDK v0.9.2 agora inclui um servidor MCP (Model Context Protocol) que fornece a agentes de IA como Claude ou GPT ferramentas para executar e interpretar circuitos quânticos. O servidor oferece mais de 20 ferramentas, incluindo execução de circuitos em hardware da IBM, interpretação de resultados, análise de ruído e precificação financeira quântica.