Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local

✍️ OpenClawRadar📅 Publicado: 28 de marzo de 2026🔗 Source
Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local
Ad

Un desarrollador probó varios modelos de lenguaje grandes para tareas de programación local, comparando rendimiento y requisitos de hardware. Las pruebas se centraron en variantes de Qwen3.5 y modelos Nemotron, con comparaciones con GPT-5.4 High.

Resultados y Hallazgos de las Pruebas

El desarrollador probó estos modelos específicos:

  • unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
  • unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
  • unsloth/Qwen3.5-122B-A10B-GGUF
  • unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
  • unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
  • unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
  • unsloth/gpt-oss-120b-GGUF:F16

Hallazgos clave de las pruebas:

  • Nemotron-3-Super-120B funcionó "muy, muy bien", a la par con GPT-5.4 High
  • Qwen3.5-27B funcionó bien para tareas de desarrollo
  • GPT-OSS-120B y Qwen3.5-122B funcionaron peor que los otros dos modelos
  • Nemotron-3-Super-120B respondió consistentemente en español (el idioma nativo del probador) mientras que otros respondieron en inglés

Métricas de Rendimiento

El desarrollador proporcionó números de rendimiento específicos:

  • Nemotron-3-Super-120B: 80 tokens por segundo (tg/s), ~2000 procesamiento de prompt (pp), contexto de 100k en vast.ai con 4x RTX 3090
  • Qwen3.5-27B Q6: 803 pp, 25 tg/s, contexto de 256k en vast.ai
Ad

Requisitos de Hardware

El desarrollador señaló limitaciones de hardware:

  • Qwen3.5-122B requeriría una nueva placa base y 1-2 tarjetas RTX 3090 adicionales, haciéndolo demasiado costoso
  • Qwen3.5-27B funciona en hardware existente de 2x RTX 3090 sin inversión adicional
  • Si tuvieran el hardware para Nemotron-3-Super-120B, lo usarían en su lugar

Detalles de Implementación

El desarrollador planea usar Qwen3.5-27B-GGUF:UD-Q6_K_XL para tareas de desarrollo reales localmente y proporcionó el comando de llama.cpp utilizado para las pruebas:

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

El desarrollador mencionó que continuará usando CODEX para tareas complejas pero puede reemplazar suscripciones de API para tareas diarias con la configuración local.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

La Reutilización de la Caché KV para Conversaciones Largas en Apple Silicon Logra una Aceleración de 200 Veces
Herramientas

La Reutilización de la Caché KV para Conversaciones Largas en Apple Silicon Logra una Aceleración de 200 Veces

Un desarrollador implementó la reutilización de caché KV basada en sesiones para la inferencia de LLM local utilizando el framework MLX de Apple, logrando una mejora de 200x en el tiempo hasta el primer token con un contexto de 100K. El enfoque mantiene la caché KV en memoria a lo largo de los turnos de conversación, procesando solo los tokens nuevos.

OpenClawRadar
Destilería: Un Complemento de Claude Code para Contexto de Equipo Persistente
Herramientas

Destilería: Un Complemento de Claude Code para Contexto de Equipo Persistente

Distillery es un complemento para Claude Code que proporciona a los equipos contexto compartido y persistente entre sesiones y personas. La versión 0.2.0 añade búsqueda híbrida, registro de auditoría de autenticación y soporte para uv.

OpenClawRadar
NPCterm: Emulador de Terminal PTY Completo para Agentes de IA a través de MCP
Herramientas

NPCterm: Emulador de Terminal PTY Completo para Agentes de IA a través de MCP

NPCterm proporciona a los agentes de IA acceso completo al terminal a través de un emulador de terminal PTY sin interfaz gráfica y en memoria, expuesto mediante MCP. Incluye 15 herramientas MCP para control del terminal, detección del estado de procesos y soporte para aplicaciones TUI.

OpenClawRadar
OpenHelm: Una Aplicación para macOS que Automatiza Tareas de Código con Claude
Herramientas

OpenHelm: Una Aplicación para macOS que Automatiza Tareas de Código con Claude

OpenHelm es una aplicación gratuita y local para macOS que automatiza tareas repetitivas de codificación con Claude ejecutando trabajos en un horario, reintentando automáticamente los fallos y dividiendo el trabajo en fragmentos para evitar los límites de sesión. Utiliza tu suscripción existente a Claude para las llamadas al LLM.

OpenClawRadar