RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación

✍️ OpenClawRadar📅 Publicado: 19 de abril de 2026🔗 Source
RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación
Ad

Hallazgos de Rendimiento de LLM Local en RTX 5060 Ti 16GB

Las pruebas en una RTX 5060 Ti 16GB con 32GB de RAM DDR4 utilizando llama-server b8373 (46dba9fce) revelan características de rendimiento prácticas para flujos de trabajo de codificación con LLM locales. La configuración utilizó llama.cpp con ajustes de lanzamiento específicos: ruta rápida con fa=on, ngl=auto, threads=8 y ajustes KV -ctk q8_0 -ctv q8_0.

Resultados de Rendimiento del Modelo

El benchmark comparó múltiples modelos cuantizados con estos hallazgos clave:

  • Mejor modelo de codificación por defecto: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • Mejor opción de codificación de contexto superior: El mismo modelo Unsloth 30B a 96k de contexto
  • Mejor opción rápida de codificación 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Métricas de Rendimiento

Velocidades de generación de tokens desde pruebas locales:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

Comparación Multiplataforma

Pruebas emparejadas con 20 preguntas, 32k de contexto y max_tokens=800 mostraron:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s, calidad 7.94 | Ubuntu: 76.3 tok/s, calidad 8.14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s, calidad 7.40 | Ubuntu: 80.1 tok/s, calidad 7.39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s, calidad 8.85 | Ubuntu: ~20.0 tok/s, calidad 8.21
Ad

Notas de Configuración

La ruta del codificador 30B utilizó: jinja, reasoning-budget 0, reasoning-format none. La ruta UD 35B utilizó: c=262144, n-cpu-moe=8. Para el ajuste estable 35B Q4_K_M, los ajustes fueron: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Notablemente, el modelo 35B Q4_K_M requirió ajustes específicos para ejecutarse de manera estable en esta tarjeta, pero aún así no superó a la ruta UD-Q2_K_XL más antigua en uso práctico. El autor encontró que los modelos más pequeños (ruta 9B) y los experimentos más pesados (35B Q4_K_M) no fueron las opciones más fuertes en el mundo real a pesar de las expectativas.

Pruebas de Rendimiento en Ubuntu

Pruebas adicionales enfocadas en Ubuntu con el modelo Jackrong 27B mostraron una variación mínima:

  • -fa on, paralelo automático: 19.95 tok/s
  • -fa auto, paralelo automático: 19.56 tok/s
  • -fa on, --parallel 1: 19.26 tok/s

Los ajustes de atención flash y los parámetros de procesamiento paralelo tuvieron un impacto insignificante en el rendimiento de este modelo en particular.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Herramienta de Navegador de Código Abierto para Probar Servidores MCP Sin Instalación
Herramientas

Herramienta de Navegador de Código Abierto para Probar Servidores MCP Sin Instalación

Una herramienta web de código abierto llamada MCP Playground permite a los desarrolladores probar servidores MCP directamente en su navegador usando WebContainers, un entorno de ejecución Node.js basado en WASM. Puede ejecutar servidores MCP basados en npm localmente sin instalación de backend y conectarse a servidores remotos mediante URL.

OpenClawRadar
Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales
Herramientas

Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales

Mistral AI lanzó Leanstral, el primer agente de código de código abierto diseñado para Lean 4, con 6B parámetros activos y licencia Apache 2.0. Los benchmarks muestran que supera a modelos de código abierto más grandes y ofrece un rendimiento competitivo frente a Claude a un costo significativamente menor.

OpenClawRadar
50 aplicaciones populares reconstruidas en especificaciones de diseño legibles por Claude: Patrones clave para clonar interfaces de usuario
Herramientas

50 aplicaciones populares reconstruidas en especificaciones de diseño legibles por Claude: Patrones clave para clonar interfaces de usuario

u/meliwat realizó ingeniería inversa de 50 aplicaciones populares para convertirlas en especificaciones de diseño estructuradas en markdown. Claude logra clones de UI con valores exactos, cobertura de estados, escalas de espaciado y gráficos de navegación. La prosa extensa degrada la salida.

OpenClawRadar
Proceso de Extracción de Voz Personalizada para Claude Code con Plantilla
Herramientas

Proceso de Extracción de Voz Personalizada para Claude Code con Plantilla

Un desarrollador comparte un proceso de extracción en tres pasos para crear una habilidad de voz personalizada para Claude Code, resultando en un archivo SKILL.md de 510 líneas con listas de prohibición para LLM-ismos, reglas anti-performativas y modos de voz específicos por formato. La plantilla de código abierto funciona con cualquier idioma utilizando 10+ muestras de escritura.

OpenClawRadar