RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación

✍️ OpenClawRadar📅 Publicado: 19 de abril de 2026🔗 Source
RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación
Ad

Hallazgos de Rendimiento de LLM Local en RTX 5060 Ti 16GB

Las pruebas en una RTX 5060 Ti 16GB con 32GB de RAM DDR4 utilizando llama-server b8373 (46dba9fce) revelan características de rendimiento prácticas para flujos de trabajo de codificación con LLM locales. La configuración utilizó llama.cpp con ajustes de lanzamiento específicos: ruta rápida con fa=on, ngl=auto, threads=8 y ajustes KV -ctk q8_0 -ctv q8_0.

Resultados de Rendimiento del Modelo

El benchmark comparó múltiples modelos cuantizados con estos hallazgos clave:

  • Mejor modelo de codificación por defecto: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • Mejor opción de codificación de contexto superior: El mismo modelo Unsloth 30B a 96k de contexto
  • Mejor opción rápida de codificación 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Métricas de Rendimiento

Velocidades de generación de tokens desde pruebas locales:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

Comparación Multiplataforma

Pruebas emparejadas con 20 preguntas, 32k de contexto y max_tokens=800 mostraron:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s, calidad 7.94 | Ubuntu: 76.3 tok/s, calidad 8.14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s, calidad 7.40 | Ubuntu: 80.1 tok/s, calidad 7.39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s, calidad 8.85 | Ubuntu: ~20.0 tok/s, calidad 8.21
Ad

Notas de Configuración

La ruta del codificador 30B utilizó: jinja, reasoning-budget 0, reasoning-format none. La ruta UD 35B utilizó: c=262144, n-cpu-moe=8. Para el ajuste estable 35B Q4_K_M, los ajustes fueron: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Notablemente, el modelo 35B Q4_K_M requirió ajustes específicos para ejecutarse de manera estable en esta tarjeta, pero aún así no superó a la ruta UD-Q2_K_XL más antigua en uso práctico. El autor encontró que los modelos más pequeños (ruta 9B) y los experimentos más pesados (35B Q4_K_M) no fueron las opciones más fuertes en el mundo real a pesar de las expectativas.

Pruebas de Rendimiento en Ubuntu

Pruebas adicionales enfocadas en Ubuntu con el modelo Jackrong 27B mostraron una variación mínima:

  • -fa on, paralelo automático: 19.95 tok/s
  • -fa auto, paralelo automático: 19.56 tok/s
  • -fa on, --parallel 1: 19.26 tok/s

Los ajustes de atención flash y los parámetros de procesamiento paralelo tuvieron un impacto insignificante en el rendimiento de este modelo en particular.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

adamsreview: Un complemento de revisión de PR de múltiples etapas para Claude Code con agentes paralelos y bucle de corrección automática
Herramientas

adamsreview: Un complemento de revisión de PR de múltiples etapas para Claude Code con agentes paralelos y bucle de corrección automática

adamsreview es un plugin para Claude Code que ejecuta revisiones de PR más profundas y de múltiples etapas utilizando subagentes paralelos, pasos de validación, estado JSON persistente y una revisión en conjunto opcional mediante Codex CLI y comentarios de bots en PR.

OpenClawRadar
Herramienta de Vigilancia de Código Abierto Aborda el Problema de Identidad del Agente en el Ecosistema OpenClaw
Herramientas

Herramienta de Vigilancia de Código Abierto Aborda el Problema de Identidad del Agente en el Ecosistema OpenClaw

Un usuario de OpenClaw que construía un servicio web descubrió tráfico de agentes indistinguible de usuarios humanos, lo que impulsó el desarrollo de Vigil: una capa de identidad de código abierto basada en W3C DID que proporciona credenciales criptográficas e historial de comportamiento para agentes.

OpenClawRadar
Habilidad de Agente de Código Abierto para Patrones de TypeScript, React y Next.js
Herramientas

Habilidad de Agente de Código Abierto para Patrones de TypeScript, React y Next.js

Un desarrollador ha lanzado una referencia estructurada en markdown de 4.000 líneas y 17 archivos, diseñada para que agentes de IA como Claude Code la sigan al generar o revisar código en TypeScript, React y Next.js. Aborda problemas comunes como la validación incorrecta de respuestas de API y el uso indebido de directivas 'use client'.

OpenClawRadar
Bifrost AI Gateway: Herramienta de Código Abierto Aborda las Brechas en la Infraestructura de IA
Herramientas

Bifrost AI Gateway: Herramienta de Código Abierto Aborda las Brechas en la Infraestructura de IA

Bifrost es una puerta de enlace LLM de código abierto basada en Go que proporciona conmutación por error automática entre proveedores, límites de presupuesto que rechazan solicitudes, registro de auditoría y enlaces para evaluación. Los puntos de referencia muestran que es ~50 veces más rápido que LiteLLM en alto rendimiento.

OpenClawRadar