Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local

Un desarrollador probó varios modelos de lenguaje grandes para tareas de programación local, comparando rendimiento y requisitos de hardware. Las pruebas se centraron en variantes de Qwen3.5 y modelos Nemotron, con comparaciones con GPT-5.4 High.
Resultados y Hallazgos de las Pruebas
El desarrollador probó estos modelos específicos:
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
Hallazgos clave de las pruebas:
- Nemotron-3-Super-120B funcionó "muy, muy bien", a la par con GPT-5.4 High
- Qwen3.5-27B funcionó bien para tareas de desarrollo
- GPT-OSS-120B y Qwen3.5-122B funcionaron peor que los otros dos modelos
- Nemotron-3-Super-120B respondió consistentemente en español (el idioma nativo del probador) mientras que otros respondieron en inglés
Métricas de Rendimiento
El desarrollador proporcionó números de rendimiento específicos:
- Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 procesamiento de prompt (pp), contexto de 100k en vast.ai con 4x RTX 3090
- Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k en vast.ai
Requisitos de Hardware
El desarrollador señaló limitaciones de hardware:
- Qwen3.5-122B requeriría una nueva placa base y 1-2 tarjetas RTX 3090 adicionales, haciéndolo demasiado costoso
- Qwen3.5-27B funciona en hardware existente de 2x RTX 3090 sin inversión adicional
- Si tuvieran el hardware para Nemotron-3-Super-120B, lo usarían en su lugar
Detalles de Implementación
El desarrollador planea usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tareas de desarrollo reales localmente y proporcionó el comando de llama.cpp utilizado para las pruebas:
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
El desarrollador mencionó que continuará usando CODEX para tareas complejas pero puede reemplazar suscripciones de API para tareas diarias con la configuración local.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

La Reutilización de la Caché KV para Conversaciones Largas en Apple Silicon Logra una Aceleración de 200 Veces
Un desarrollador implementó la reutilización de caché KV basada en sesiones para la inferencia de LLM local utilizando el framework MLX de Apple, logrando una mejora de 200x en el tiempo hasta el primer token con un contexto de 100K. El enfoque mantiene la caché KV en memoria a lo largo de los turnos de conversación, procesando solo los tokens nuevos.

Destilería: Un Complemento de Claude Code para Contexto de Equipo Persistente
Distillery es un complemento para Claude Code que proporciona a los equipos contexto compartido y persistente entre sesiones y personas. La versión 0.2.0 añade búsqueda híbrida, registro de auditoría de autenticación y soporte para uv.

NPCterm: Emulador de Terminal PTY Completo para Agentes de IA a través de MCP
NPCterm proporciona a los agentes de IA acceso completo al terminal a través de un emulador de terminal PTY sin interfaz gráfica y en memoria, expuesto mediante MCP. Incluye 15 herramientas MCP para control del terminal, detección del estado de procesos y soporte para aplicaciones TUI.

OpenHelm: Una Aplicación para macOS que Automatiza Tareas de Código con Claude
OpenHelm es una aplicación gratuita y local para macOS que automatiza tareas repetitivas de codificación con Claude ejecutando trabajos en un horario, reintentando automáticamente los fallos y dividiendo el trabajo en fragmentos para evitar los límites de sesión. Utiliza tu suscripción existente a Claude para las llamadas al LLM.