Qwen3.5 27B vs Modelos Más Grandes para Programación Local

Un desarrollador probó varios modelos de lenguaje grandes para tareas de programación local, comparando rendimiento y requisitos de hardware. Las pruebas se centraron en variantes de Qwen3.5 y modelos Nemotron, con comparaciones con GPT-5.4 High.

Resultados y Hallazgos de las Pruebas

El desarrollador probó estos modelos específicos:

unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
unsloth/Qwen3.5-122B-A10B-GGUF
unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
unsloth/gpt-oss-120b-GGUF:F16

Hallazgos clave de las pruebas:

Nemotron-3-Super-120B funcionó "muy, muy bien", a la par con GPT-5.4 High
Qwen3.5-27B funcionó bien para tareas de desarrollo
GPT-OSS-120B y Qwen3.5-122B funcionaron peor que los otros dos modelos
Nemotron-3-Super-120B respondió consistentemente en español (el idioma nativo del probador) mientras que otros respondieron en inglés

Métricas de Rendimiento

El desarrollador proporcionó números de rendimiento específicos:

Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 procesamiento de prompt (pp), contexto de 100k en vast.ai con 4x RTX 3090
Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k en vast.ai

Requisitos de Hardware

El desarrollador señaló limitaciones de hardware:

Qwen3.5-122B requeriría una nueva placa base y 1-2 tarjetas RTX 3090 adicionales, haciéndolo demasiado costoso
Qwen3.5-27B funciona en hardware existente de 2x RTX 3090 sin inversión adicional
Si tuvieran el hardware para Nemotron-3-Super-120B, lo usarían en su lugar

Detalles de Implementación

El desarrollador planea usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tareas de desarrollo reales localmente y proporcionó el comando de llama.cpp utilizado para las pruebas:

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

El desarrollador mencionó que continuará usando CODEX para tareas complejas pero puede reemplazar suscripciones de API para tareas diarias con la configuración local.

📖 Read the full source: r/LocalLLaMA

Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local

Resultados y Hallazgos de las Pruebas

Métricas de Rendimiento

Requisitos de Hardware

Detalles de Implementación

👀 Ver también

Pila de modelos de IA de código abierto para un reemplazo rentable de Claude

Recordatorio: Un Servidor MCP de Memoria Persistente para Claude Code

Complementos de Claude: Visión por Computadora, Consejo Multiagente y Flujo de Trabajo de Autodepuración

StartClaw: Una herramienta de automatización de navegador sin cabeza construida sobre ZeroClaw con integración de Claude