RTX 5060 Ti 16GB: Benchmarks de LLM Local - Modelos de 30B ainda lideram em programação

✍️ OpenClawRadar📅 Publicado: April 19, 2026🔗 Source
RTX 5060 Ti 16GB: Benchmarks de LLM Local - Modelos de 30B ainda lideram em programação
Ad

Resultados de Desempenho de LLM Local na RTX 5060 Ti 16GB

Testes em uma RTX 5060 Ti 16GB com 32GB de RAM DDR4 usando o llama-server b8373 (46dba9fce) revelam características práticas de desempenho para fluxos de trabalho de codificação com LLM local. A configuração utilizou o llama.cpp com parâmetros de inicialização específicos: caminho rápido com fa=on, ngl=auto, threads=8 e configurações KV -ctk q8_0 -ctv q8_0.

Resultados de Desempenho dos Modelos

O benchmark comparou vários modelos quantizados com estas principais descobertas:

  • Melhor modelo de codificação padrão: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • Melhor opção de codificação com contexto maior: O mesmo modelo Unsloth 30B em contexto de 96k
  • Melhor opção de codificação rápida 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Métricas de Desempenho

Velocidades de geração de tokens a partir de testes locais:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76,3 tok/s
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80,1 tok/s

Comparação entre Plataformas

Testes correspondentes com 20 perguntas, contexto de 32k e max_tokens=800 mostraram:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79,5 tok/s, qualidade 7,94 | Ubuntu: 76,3 tok/s, qualidade 8,14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72,3 tok/s, qualidade 7,40 | Ubuntu: 80,1 tok/s, qualidade 7,39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19,9 tok/s, qualidade 8,85 | Ubuntu: ~20,0 tok/s, qualidade 8,21
Ad

Notas de Configuração

O caminho do codificador 30B usou: jinja, reasoning-budget 0, reasoning-format none. O caminho UD 35B usou: c=262144, n-cpu-moe=8. Para o ajuste estável 35B Q4_K_M, as configurações foram: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Notavelmente, o modelo 35B Q4_K_M exigiu ajustes específicos para rodar de forma estável nesta placa, mas ainda não superou o caminho UD-Q2_K_XL mais antigo no uso prático. O autor descobriu que modelos menores (rota 9B) e experimentos mais pesados (35B Q4_K_M) não foram as escolhas mais fortes no mundo real, apesar das expectativas.

Testes de Desempenho no Ubuntu

Testes adicionais focados no Ubuntu com o modelo Jackrong 27B mostraram variação mínima:

  • -fa on, paralelismo automático: 19,95 tok/s
  • -fa auto, paralelismo automático: 19,56 tok/s
  • -fa on, --parallel 1: 19,26 tok/s

Configurações de atenção flash e parâmetros de processamento paralelo tiveram impacto insignificante no desempenho deste modelo específico.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

mcp-optimizer reduz o desperdício de tokens de servidores MCP ociosos no Claude Code
Tools

mcp-optimizer reduz o desperdício de tokens de servidores MCP ociosos no Claude Code

mcp-optimizer é um plugin que aborda o desperdício de tokens de servidores MCP no Claude Code, analisando o uso de ferramentas e gerando configurações otimizadas. Inclui quatro utilitários: mcp-doctor para verificar a saúde dos servidores, mcp-audit para análise de uso, mcp-optimize para criar configurações locais do projeto e mcp-to-skills para converter ferramentas em Skills sob demanda.

OpenClawRadar
ApexClaw: Agente de IA de Código Aberto para Telegram com Mais de 85 Ferramentas para Automação Web, Voz e E-mail
Tools

ApexClaw: Agente de IA de Código Aberto para Telegram com Mais de 85 Ferramentas para Automação Web, Voz e E-mail

ApexClaw é um agente de IA de código aberto para Telegram escrito em Go que oferece mais de 85 ferramentas integradas, incluindo navegação na web com Chrome headless, processamento de notas de voz, integração com Gmail e execução de scripts shell. É auto-hospedado e utiliza o mecanismo z.ai para raciocínio.

OpenClawRadar
Altimate Code: Plataforma de Engenharia de Dados Agêntica de Código Aberto
Tools

Altimate Code: Plataforma de Engenharia de Dados Agêntica de Código Aberto

Altimate Code é um harness de código aberto que fornece ferramentas determinísticas de engenharia de dados para agentes de IA, abordando problemas como SQL alucinado e falta de contexto de esquema. Inclui linhagem em nível de coluna, detecção de antipadrões SQL e integração com dbt, com benchmarks mostrando 74,4% de desempenho no ADE-bench.

OpenClawRadar
Sistema Operacional Creation: Um Runtime Local de LLM com Porta σ Que Permite que Modelos Digam "Não Sei" em Vez de Alucinar
Tools

Sistema Operacional Creation: Um Runtime Local de LLM com Porta σ Que Permite que Modelos Digam "Não Sei" em Vez de Alucinar

O Creation OS envolve LLMs locais (BitNet, Qwen, Gemma, qualquer GGUF) com um σ-gate que mede múltiplos canais de incerteza e decide ACEITAR, REPENSAR ou ABSTER-SE por saída. Sem nuvem, sem API. Precisão no TruthfulQA melhorou ~29% via regeneração seletiva.

OpenClawRadar