Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local

Un desarrollador probó varios modelos de lenguaje grandes para tareas de programación local, comparando rendimiento y requisitos de hardware. Las pruebas se centraron en variantes de Qwen3.5 y modelos Nemotron, con comparaciones con GPT-5.4 High.
Resultados y Hallazgos de las Pruebas
El desarrollador probó estos modelos específicos:
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
Hallazgos clave de las pruebas:
- Nemotron-3-Super-120B funcionó "muy, muy bien", a la par con GPT-5.4 High
- Qwen3.5-27B funcionó bien para tareas de desarrollo
- GPT-OSS-120B y Qwen3.5-122B funcionaron peor que los otros dos modelos
- Nemotron-3-Super-120B respondió consistentemente en español (el idioma nativo del probador) mientras que otros respondieron en inglés
Métricas de Rendimiento
El desarrollador proporcionó números de rendimiento específicos:
- Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 procesamiento de prompt (pp), contexto de 100k en vast.ai con 4x RTX 3090
- Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k en vast.ai
Requisitos de Hardware
El desarrollador señaló limitaciones de hardware:
- Qwen3.5-122B requeriría una nueva placa base y 1-2 tarjetas RTX 3090 adicionales, haciéndolo demasiado costoso
- Qwen3.5-27B funciona en hardware existente de 2x RTX 3090 sin inversión adicional
- Si tuvieran el hardware para Nemotron-3-Super-120B, lo usarían en su lugar
Detalles de Implementación
El desarrollador planea usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tareas de desarrollo reales localmente y proporcionó el comando de llama.cpp utilizado para las pruebas:
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
El desarrollador mencionó que continuará usando CODEX para tareas complejas pero puede reemplazar suscripciones de API para tareas diarias con la configuración local.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Google lanza Sashiko: un agente de revisión de código con IA para parches del kernel de Linux
Los ingenieros de Google han liberado Sashiko, un sistema de revisión de código con IA agéntica de código abierto diseñado específicamente para el kernel de Linux. Encontró el 53% de los errores en un conjunto sin filtrar de 1,000 problemas recientes del upstream que fueron pasados por alto por los revisores humanos.

Warp Terminal se convierte en código abierto con un entorno de desarrollo agéntico
Warp ahora es de código abierto, renombrándose como un entorno de desarrollo agéntico con un agente de codificación integrado y soporte para traer tus propios agentes CLI como Claude Code, Codex y Gemini CLI.

Solución de problemas de acceso a correo electrónico y Google Drive para agentes de IA
Configurar el acceso a correo electrónico y Google Drive para bots de IA en AWS puede provocar bloqueos de cuenta. Aquí hay una solución utilizando Gmail y dominios de Workspace.

Clawmates: OpenClaw para equipos
Un nuevo proyecto permite desplegar OpenClaw para todo el equipo con base de conocimiento compartida, visibilidad de costes y controles de administrador.