Benchmark de Quantização Qwen 3.6 27B: Q4_K_M Supera Q8_0 em Compensações Práticas

✍️ OpenClawRadar📅 Publicado: April 28, 2026🔗 Source
Benchmark de Quantização Qwen 3.6 27B: Q4_K_M Supera Q8_0 em Compensações Práticas
Ad

Um usuário do Reddit fez benchmark do Qwen 3.6 27B em três variantes de quantização GGUF (BF16, Q4_K_M, Q8_0) usando llama-cpp-python através do framework Neo AI Engineer. A avaliação cobriu 664 amostras no total em três tarefas: HumanEval (geração de código, 164 amostras), HellaSwag (raciocínio de senso comum, 100 amostras) e BFCL (chamada de funções, 400 amostras).

Resultados do Benchmark

  • BF16 (tamanho do modelo 53,8 GB, pico de RAM 54 GB, taxa de transferência 15,5 tok/s): HumanEval 56,10% (92/164), HellaSwag 90,00% (90/100), BFCL 63,25% (253/400). Precisão média: 69,78%.
  • Q4_K_M (16,8 GB, 28 GB de RAM, 22,5 tok/s): HumanEval 50,61% (83/164), HellaSwag 86,00% (86/100), BFCL 63,00% (252/400). Média: 66,54%.
  • Q8_0 (28,6 GB, 42 GB de RAM, 18,0 tok/s): HumanEval 52,44% (86/164), HellaSwag 83,00% (83/100), BFCL 63,00% (252/400). Média: 66,15%.
Ad

Principais Conclusões

O Q4_K_M é a variante prática de destaque. Ele preserva a precisão do BFCL (63,00% vs 63,25%), cai apenas ~5,5 pontos no HumanEval e fica ~4 pontos atrás do BF16 no HellaSwag. As compensações: 1,45x mais rápido que o BF16, 48% menos pico de RAM, arquivo 68,8% menor e desempenho quase idêntico em chamada de funções. O Q8_0 foi decepcionante: melhorou o HumanEval em apenas ~1,8 pontos em relação ao Q4_K_M, mas usou 42 GB de RAM contra 28 GB, foi mais lento e obteve pontuação menor no HellaSwag.

Para implantação local/CPU, o Q4_K_M é recomendado, a menos que a carga de trabalho seja fortemente focada em geração de código. Para máxima qualidade, o BF16 ainda vence.

Configuração da Avaliação

Variantes GGUF via llama-cpp-python com n_ctx: 32768, avaliação com checkpoint. O framework Neo AI Engineer construiu o pipeline de avaliação GGUF, gerenciou execuções com checkpoint e consolidou resultados. O estudo de caso completo com trechos de código está linkado nos comentários originais do Reddit.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Por que Fluxos de Trabalho Determinísticos Superam a Orquestração Baseada em IA para Sistemas de Agentes
Tools

Por que Fluxos de Trabalho Determinísticos Superam a Orquestração Baseada em IA para Sistemas de Agentes

Um desenvolvedor com um ano de experiência construindo sistemas de agentes compartilha que a orquestração orientada por IA falhou de forma confiável devido ao roteamento não determinístico, erros cumulativos, explosão de custos e depuração impossível. Mudar para fluxos de trabalho determinísticos com orquestração baseada em código eliminou as falhas de orquestração.

OpenClawRadar
AgenteOS Hollow Reduz Uso de Tokens de Código do Claude em 68,5% com Abordagem de Sistema Operacional Nativo em JSON
Tools

AgenteOS Hollow Reduz Uso de Tokens de Código do Claude em 68,5% com Abordagem de Sistema Operacional Nativo em JSON

Hollow AgentOS, uma camada de sistema operacional nativa em JSON para agentes de IA, reduz o uso de tokens do Claude Code em 68,5% ao eliminar a sobrecarga ineficiente de comandos shell. A ferramenta se conecta ao Claude Code via MCP e executa inferência local através do Ollama.

OpenClawRadar
SprintiQ: Planejamento de Sprint Open-Source para Claude Code
Tools

SprintiQ: Planejamento de Sprint Open-Source para Claude Code

SprintiQ é uma plataforma ágil de código aberto que atua como uma camada de orquestração para o Claude Code, oferecendo geração de histórias de usuário com IA, planejamento de sprints, acompanhamento de velocidade e uma CLI que sincroniza a atividade do git com sprints em tempo real.

OpenClawRadar
Audacity MCP Server Dá ao Claude AI Controle Total de Edição de Áudio
Tools

Audacity MCP Server Dá ao Claude AI Controle Total de Edição de Áudio

Um desenvolvedor criou um servidor MCP que conecta o Claude AI ao Audacity via mod-script-pipe, fornecendo 99 ferramentas para comandos de edição de áudio em linguagem natural. A ferramenta de código aberto funciona com Claude Desktop, Claude Code ou Cursor.

OpenClawRadar