RTX 5060 Ti 16GB en LLM: 30B Lideran en Codificación

Hallazgos de Rendimiento de LLM Local en RTX 5060 Ti 16GB

Las pruebas en una RTX 5060 Ti 16GB con 32GB de RAM DDR4 utilizando llama-server b8373 (46dba9fce) revelan características de rendimiento prácticas para flujos de trabajo de codificación con LLM locales. La configuración utilizó llama.cpp con ajustes de lanzamiento específicos: ruta rápida con fa=on, ngl=auto, threads=8 y ajustes KV -ctk q8_0 -ctv q8_0.

Resultados de Rendimiento del Modelo

El benchmark comparó múltiples modelos cuantizados con estos hallazgos clave:

Mejor modelo de codificación por defecto: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
Mejor opción de codificación de contexto superior: El mismo modelo Unsloth 30B a 96k de contexto
Mejor opción rápida de codificación 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Métricas de Rendimiento

Velocidades de generación de tokens desde pruebas locales:

Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

Comparación Multiplataforma

Pruebas emparejadas con 20 preguntas, 32k de contexto y max_tokens=800 mostraron:

Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s, calidad 7.94 | Ubuntu: 76.3 tok/s, calidad 8.14
Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s, calidad 7.40 | Ubuntu: 80.1 tok/s, calidad 7.39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s, calidad 8.85 | Ubuntu: ~20.0 tok/s, calidad 8.21

Notas de Configuración

La ruta del codificador 30B utilizó: jinja, reasoning-budget 0, reasoning-format none. La ruta UD 35B utilizó: c=262144, n-cpu-moe=8. Para el ajuste estable 35B Q4_K_M, los ajustes fueron: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Notablemente, el modelo 35B Q4_K_M requirió ajustes específicos para ejecutarse de manera estable en esta tarjeta, pero aún así no superó a la ruta UD-Q2_K_XL más antigua en uso práctico. El autor encontró que los modelos más pequeños (ruta 9B) y los experimentos más pesados (35B Q4_K_M) no fueron las opciones más fuertes en el mundo real a pesar de las expectativas.

Pruebas de Rendimiento en Ubuntu

Pruebas adicionales enfocadas en Ubuntu con el modelo Jackrong 27B mostraron una variación mínima:

-fa on, paralelo automático: 19.95 tok/s
-fa auto, paralelo automático: 19.56 tok/s
-fa on, --parallel 1: 19.26 tok/s

Los ajustes de atención flash y los parámetros de procesamiento paralelo tuvieron un impacto insignificante en el rendimiento de este modelo en particular.

📖 Leer la fuente completa: r/LocalLLaMA

RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación

Hallazgos de Rendimiento de LLM Local en RTX 5060 Ti 16GB

Resultados de Rendimiento del Modelo

Métricas de Rendimiento

Comparación Multiplataforma

Notas de Configuración

Pruebas de Rendimiento en Ubuntu

👀 Ver también

Engram: Plugin de Memoria Híbrida para Agentes OpenClaw — Búsqueda Vectorial + Semántica con Decaimiento

Arranqué la memoria markdown predeterminada de OpenClaw y construí una capa de API con Node.js/Postgres

Reemplazando complejas tuberías de recuperación con simples comandos git para agentes de IA

ddash: Herramienta de Diagramas Mermaid con Almacenamiento Basado en URL e Integración de Código Claude