RTX 5060 Ti 16GB Benchmarks: LLM Local com 76 tok/s em Qwen3-Coder-30B

Resultados de Desempenho de LLM Local na RTX 5060 Ti 16GB

Testes em uma RTX 5060 Ti 16GB com 32GB de RAM DDR4 usando o llama-server b8373 (46dba9fce) revelam características práticas de desempenho para fluxos de trabalho de codificação com LLM local. A configuração utilizou o llama.cpp com parâmetros de inicialização específicos: caminho rápido com fa=on, ngl=auto, threads=8 e configurações KV -ctk q8_0 -ctv q8_0.

Resultados de Desempenho dos Modelos

O benchmark comparou vários modelos quantizados com estas principais descobertas:

Melhor modelo de codificação padrão: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
Melhor opção de codificação com contexto maior: O mesmo modelo Unsloth 30B em contexto de 96k
Melhor opção de codificação rápida 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Métricas de Desempenho

Velocidades de geração de tokens a partir de testes locais:

Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76,3 tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80,1 tok/s

Comparação entre Plataformas

Testes correspondentes com 20 perguntas, contexto de 32k e max_tokens=800 mostraram:

Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79,5 tok/s, qualidade 7,94 | Ubuntu: 76,3 tok/s, qualidade 8,14
Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72,3 tok/s, qualidade 7,40 | Ubuntu: 80,1 tok/s, qualidade 7,39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19,9 tok/s, qualidade 8,85 | Ubuntu: ~20,0 tok/s, qualidade 8,21

Notas de Configuração

O caminho do codificador 30B usou: jinja, reasoning-budget 0, reasoning-format none. O caminho UD 35B usou: c=262144, n-cpu-moe=8. Para o ajuste estável 35B Q4_K_M, as configurações foram: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Notavelmente, o modelo 35B Q4_K_M exigiu ajustes específicos para rodar de forma estável nesta placa, mas ainda não superou o caminho UD-Q2_K_XL mais antigo no uso prático. O autor descobriu que modelos menores (rota 9B) e experimentos mais pesados (35B Q4_K_M) não foram as escolhas mais fortes no mundo real, apesar das expectativas.

Testes de Desempenho no Ubuntu

Testes adicionais focados no Ubuntu com o modelo Jackrong 27B mostraram variação mínima:

-fa on, paralelismo automático: 19,95 tok/s
-fa auto, paralelismo automático: 19,56 tok/s
-fa on, --parallel 1: 19,26 tok/s

Configurações de atenção flash e parâmetros de processamento paralelo tiveram impacto insignificante no desempenho deste modelo específico.

📖 Leia a fonte completa: r/LocalLLaMA

RTX 5060 Ti 16GB: Benchmarks de LLM Local - Modelos de 30B ainda lideram em programação

Resultados de Desempenho de LLM Local na RTX 5060 Ti 16GB

Resultados de Desempenho dos Modelos

Métricas de Desempenho

Comparação entre Plataformas

Notas de Configuração

Testes de Desempenho no Ubuntu

👀 See Also

FUTO Swipe: Modelos de Digitação por Deslize de Código Aberto Igualam a Precisão das Grandes Tecnologias

Habilidades OpenClaw com Alta Adoção: Capability Evolver, WACLI, Composio e Mais

Habilidade de Código Claude /conselho Executa Prompts em 4 Modelos de IA em Paralelo

Agente de IA de Desktop Skales Desenvolvido com Claude, Apresenta Mascote no Estilo Clippy