Desenvolvedor Testa Qwen3.5 27B em Comparação com Modelos Maiores para Tarefas Locais de Programação

✍️ OpenClawRadar📅 Publicado: March 28, 2026🔗 Source
Desenvolvedor Testa Qwen3.5 27B em Comparação com Modelos Maiores para Tarefas Locais de Programação
Ad

Um desenvolvedor testou vários modelos de linguagem grandes para tarefas de programação local, comparando desempenho e requisitos de hardware. O teste focou em variantes do Qwen3.5 e modelos Nemotron, com comparações ao GPT-5.4 High.

Resultados e Descobertas dos Testes

O desenvolvedor testou estes modelos específicos:

  • unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
  • unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
  • unsloth/Qwen3.5-122B-A10B-GGUF
  • unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
  • unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
  • unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
  • unsloth/gpt-oss-120b-GGUF:F16

Principais descobertas dos testes:

  • Nemotron-3-Super-120B teve desempenho "muito, muito bom", equivalente ao GPT-5.4 High
  • Qwen3.5-27B teve bom desempenho para tarefas de desenvolvimento
  • GPT-OSS-120B e Qwen3.5-122B tiveram desempenho inferior aos outros dois modelos
  • Nemotron-3-Super-120B respondeu consistentemente em espanhol (idioma nativo do testador) enquanto os outros responderam em inglês

Métricas de Desempenho

O desenvolvedor forneceu números específicos de desempenho:

  • Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 processamento de prompt (pp), contexto de 100k no vast.ai com 4x RTX 3090
  • Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k no vast.ai
Ad

Requisitos de Hardware

O desenvolvedor observou limitações de hardware:

  • Qwen3.5-122B exigiria uma nova placa-mãe e mais 1-2 placas RTX 3090, tornando-o muito caro
  • Qwen3.5-27B roda no hardware existente de 2x RTX 3090 sem investimento adicional
  • Se tivessem o hardware para Nemotron-3-Super-120B, usariam ele em vez disso

Detalhes de Implementação

O desenvolvedor planeja usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tarefas reais de desenvolvimento localmente e forneceu o comando llama.cpp usado para testes:

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

O desenvolvedor mencionou que continuará usando CODEX para tarefas complexas, mas pode substituir assinaturas de API para tarefas diárias pela configuração local.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude-Control: Controle Remoto Móvel para Sessões de Código Claude
Tools

Claude-Control: Controle Remoto Móvel para Sessões de Código Claude

Claude-control é uma ferramenta de código aberto que permite gerenciar sessões do Claude Code pelo seu telefone via HTTPS e WebSocket. Ele executa o Claude Code em um PTY real dentro do tmux, detecta solicitações de permissão e envia notificações push com botões Permitir/Negar.

OpenClawRadar
AGI em md: 11 Níveis de Compressão Cognitiva para Prompts do Sistema Claude
Tools

AGI em md: 11 Níveis de Compressão Cognitiva para Prompts do Sistema Claude

Um repositório do GitHub documenta 11 níveis de compressão cognitiva que podem ser codificados em prompts de sistema do Claude, com o Nível 8 mudando da análise para a construção e melhorando o desempenho do Haiku de 0/3 para 4/4. O projeto inclui 28 prompts, 299 saídas brutas e logs completos de experimentos em 19 domínios.

OpenClawRadar
Gerenciamento Eficiente de Tokens com Servidores MCP de Código Aberto: Pare
Tools

Gerenciamento Eficiente de Tokens com Servidores MCP de Código Aberto: Pare

Os servidores Pare MCP reduzem o desperdício de tokens e aumentam a eficiência quando agentes de IA de codificação usam ferramentas de desenvolvimento, fornecendo saída estruturada.

OpenClawRadar
Quanta-SDK v0.9.2 adiciona servidor MCP para execução de circuitos quânticos via agentes de IA
Tools

Quanta-SDK v0.9.2 adiciona servidor MCP para execução de circuitos quânticos via agentes de IA

O Quanta-SDK v0.9.2 agora inclui um servidor MCP (Model Context Protocol) que fornece a agentes de IA como Claude ou GPT ferramentas para executar e interpretar circuitos quânticos. O servidor oferece mais de 20 ferramentas, incluindo execução de circuitos em hardware da IBM, interpretação de resultados, análise de ruído e precificação financeira quântica.

OpenClawRadar