Local vs Cloud: Qwen-3.6-27B vs Gemma-4-31B vs Claude vs Codex-Spark

Um usuário do Reddit comparou o Qwen-3.6-27B (GGUF q4_k_m) executado localmente com equivalentes de API: Qwen-3.6-27B via OpenRouter, Gemma-4-31B via OpenRouter, Claude Haiku 4.5 e GPT-Codex-Spark. O teste envolveu implementar um loop de autopesquisa a partir de um documento de design — uma tarefa deliberadamente difícil para avaliar a clareza das falhas, não a taxa de sucesso.

Configuração de Hardware

CPU: Ryzen 7 7800X3D
RAM: 64 GB DDR5-6400
GPU: RTX 5080 (16 GB VRAM)
Modelo local: Qwen-3.6-27B q4_k_m (GGUF) — cabe em 16 GB VRAM via quantização

Resultados

Gemma-4-31B (API): Falhou completamente. Escreveu um esqueleto com módulos simulados, sem testes, sem arquivos de configuração (__init__.py, requirements.txt, pyproject.toml). Custo: $0,112, 803k tokens de contexto consumidos, 21k gerados.
Codex-Spark (API): Produziu uma bela estrutura de pastas e código, mas as importações foram alucinadas. Nenhum teste unitário. Usou 1% dos limites do Spark de $100/mês.
Claude Haiku 4.5 (API): Implementação detalhada, mas falhou na correção. (Mais detalhes truncados na fonte.)
Qwen-3.6-27B (local q4_k_m): Não foi explicitamente pontuado, mas o usuário observa que a inferência quantizada degrada a qualidade em comparação com a versão API de precisão total.

Contexto

O usuário argumenta que as avaliações típicas de modelos locais usam tarefas triviais (ex.: Snake em HTML) onde tanto modelos locais quanto de fronteira são bem-sucedidos, fazendo os modelos locais parecerem melhores do que são. Este teste usou um projeto de trabalho real com um documento de design; apenas o Codex-Spark produziu código totalmente escrito (mas quebrado). O ponto: modelos locais ainda não estão prontos para geração de código complexa sem correções substanciais.

📖 Leia a fonte completa: r/LocalLLaMA

Modelos Locais vs Nuvem: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark em Geração de Código Complexo

Configuração de Hardware

Resultados

Contexto

👀 See Also

A Claude restringe o uso de ferramentas de terceiros, incluindo a OpenClaw, a partir de 4 de abril.

Erro de Cobrança no Design do Claude: Compra de Uso Extra Não se Aplica, Bot de Suporte Prende Usuários Pagantes

O Teste Noturno da Garra Aberta: Um Salto à Frente na Automação de IA

Codificadores de IA andam por aí com laptops abertos para manter os agentes funcionando