Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local

✍️ OpenClawRadar📅 Publicado: 28 de marzo de 2026🔗 Source
Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local
Ad

Un desarrollador probó varios modelos de lenguaje grandes para tareas de programación local, comparando rendimiento y requisitos de hardware. Las pruebas se centraron en variantes de Qwen3.5 y modelos Nemotron, con comparaciones con GPT-5.4 High.

Resultados y Hallazgos de las Pruebas

El desarrollador probó estos modelos específicos:

  • unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
  • unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
  • unsloth/Qwen3.5-122B-A10B-GGUF
  • unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
  • unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
  • unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
  • unsloth/gpt-oss-120b-GGUF:F16

Hallazgos clave de las pruebas:

  • Nemotron-3-Super-120B funcionó "muy, muy bien", a la par con GPT-5.4 High
  • Qwen3.5-27B funcionó bien para tareas de desarrollo
  • GPT-OSS-120B y Qwen3.5-122B funcionaron peor que los otros dos modelos
  • Nemotron-3-Super-120B respondió consistentemente en español (el idioma nativo del probador) mientras que otros respondieron en inglés

Métricas de Rendimiento

El desarrollador proporcionó números de rendimiento específicos:

  • Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 procesamiento de prompt (pp), contexto de 100k en vast.ai con 4x RTX 3090
  • Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k en vast.ai
Ad

Requisitos de Hardware

El desarrollador señaló limitaciones de hardware:

  • Qwen3.5-122B requeriría una nueva placa base y 1-2 tarjetas RTX 3090 adicionales, haciéndolo demasiado costoso
  • Qwen3.5-27B funciona en hardware existente de 2x RTX 3090 sin inversión adicional
  • Si tuvieran el hardware para Nemotron-3-Super-120B, lo usarían en su lugar

Detalles de Implementación

El desarrollador planea usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tareas de desarrollo reales localmente y proporcionó el comando de llama.cpp utilizado para las pruebas:

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

El desarrollador mencionó que continuará usando CODEX para tareas complejas pero puede reemplazar suscripciones de API para tareas diarias con la configuración local.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también