RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación

Hallazgos de Rendimiento de LLM Local en RTX 5060 Ti 16GB
Las pruebas en una RTX 5060 Ti 16GB con 32GB de RAM DDR4 utilizando llama-server b8373 (46dba9fce) revelan características de rendimiento prácticas para flujos de trabajo de codificación con LLM locales. La configuración utilizó llama.cpp con ajustes de lanzamiento específicos: ruta rápida con fa=on, ngl=auto, threads=8 y ajustes KV -ctk q8_0 -ctv q8_0.
Resultados de Rendimiento del Modelo
El benchmark comparó múltiples modelos cuantizados con estos hallazgos clave:
- Mejor modelo de codificación por defecto: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
- Mejor opción de codificación de contexto superior: El mismo modelo Unsloth 30B a 96k de contexto
- Mejor opción rápida de codificación 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL
Métricas de Rendimiento
Velocidades de generación de tokens desde pruebas locales:
- Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
- LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
- Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
- Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
- Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s
Comparación Multiplataforma
Pruebas emparejadas con 20 preguntas, 32k de contexto y max_tokens=800 mostraron:
- Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s, calidad 7.94 | Ubuntu: 76.3 tok/s, calidad 8.14
- Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s, calidad 7.40 | Ubuntu: 80.1 tok/s, calidad 7.39
- Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s, calidad 8.85 | Ubuntu: ~20.0 tok/s, calidad 8.21
Notas de Configuración
La ruta del codificador 30B utilizó: jinja, reasoning-budget 0, reasoning-format none. La ruta UD 35B utilizó: c=262144, n-cpu-moe=8. Para el ajuste estable 35B Q4_K_M, los ajustes fueron: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.
Notablemente, el modelo 35B Q4_K_M requirió ajustes específicos para ejecutarse de manera estable en esta tarjeta, pero aún así no superó a la ruta UD-Q2_K_XL más antigua en uso práctico. El autor encontró que los modelos más pequeños (ruta 9B) y los experimentos más pesados (35B Q4_K_M) no fueron las opciones más fuertes en el mundo real a pesar de las expectativas.
Pruebas de Rendimiento en Ubuntu
Pruebas adicionales enfocadas en Ubuntu con el modelo Jackrong 27B mostraron una variación mínima:
-fa on, paralelo automático: 19.95 tok/s-fa auto, paralelo automático: 19.56 tok/s-fa on,--parallel 1: 19.26 tok/s
Los ajustes de atención flash y los parámetros de procesamiento paralelo tuvieron un impacto insignificante en el rendimiento de este modelo en particular.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

adamsreview: Un complemento de revisión de PR de múltiples etapas para Claude Code con agentes paralelos y bucle de corrección automática
adamsreview es un plugin para Claude Code que ejecuta revisiones de PR más profundas y de múltiples etapas utilizando subagentes paralelos, pasos de validación, estado JSON persistente y una revisión en conjunto opcional mediante Codex CLI y comentarios de bots en PR.

Herramienta de Vigilancia de Código Abierto Aborda el Problema de Identidad del Agente en el Ecosistema OpenClaw
Un usuario de OpenClaw que construía un servicio web descubrió tráfico de agentes indistinguible de usuarios humanos, lo que impulsó el desarrollo de Vigil: una capa de identidad de código abierto basada en W3C DID que proporciona credenciales criptográficas e historial de comportamiento para agentes.

Habilidad de Agente de Código Abierto para Patrones de TypeScript, React y Next.js
Un desarrollador ha lanzado una referencia estructurada en markdown de 4.000 líneas y 17 archivos, diseñada para que agentes de IA como Claude Code la sigan al generar o revisar código en TypeScript, React y Next.js. Aborda problemas comunes como la validación incorrecta de respuestas de API y el uso indebido de directivas 'use client'.

Bifrost AI Gateway: Herramienta de Código Abierto Aborda las Brechas en la Infraestructura de IA
Bifrost es una puerta de enlace LLM de código abierto basada en Go que proporciona conmutación por error automática entre proveedores, límites de presupuesto que rechazan solicitudes, registro de auditoría y enlaces para evaluación. Los puntos de referencia muestran que es ~50 veces más rápido que LiteLLM en alto rendimiento.