Modelos locales vs en la nube: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark en generación de código complejo

Un usuario de Reddit comparó Qwen-3.6-27B ejecutado localmente (GGUF q4_k_m) contra equivalentes de API: Qwen-3.6-27B a través de OpenRouter, Gemma-4-31B a través de OpenRouter, Claude Haiku 4.5 y GPT-Codex-Spark. La prueba consistió en implementar un bucle de auto-investigación a partir de un documento de diseño, una tarea deliberadamente difícil para evaluar la limpieza del fallo, no la tasa de éxito.
Configuración de hardware
- CPU: Ryzen 7 7800X3D
- RAM: 64 GB DDR5-6400
- GPU: RTX 5080 (16 GB VRAM)
- Modelo local: Qwen-3.6-27B q4_k_m (GGUF) — cabe en 16 GB VRAM mediante cuantización
Resultados
- Gemma-4-31B (API): Falló completamente. Escribió un esqueleto con módulos simulados, sin pruebas, sin archivos de configuración (
__init__.py,requirements.txt,pyproject.toml). Costo: $0.112, 803k tokens de contexto consumidos, 21k generados. - Codex-Spark (API): Produjo una hermosa estructura de carpetas y código, pero las importaciones fueron alucinadas. Sin pruebas unitarias. Usó el 1% de los límites de Spark de $100/mes.
- Claude Haiku 4.5 (API): Implementación detallada pero falló en corrección. (Más detalles truncados en la fuente.)
- Qwen-3.6-27B (local q4_k_m): No se puntuó explícitamente, pero el usuario señala que la inferencia cuantizada degrada la calidad en comparación con la versión API de precisión completa.
Contexto
El usuario argumenta que las evaluaciones típicas de modelos locales usan tareas triviales (por ejemplo, Snake en HTML) donde tanto los modelos locales como los fronterizos tienen éxito, haciendo que los modelos locales parezcan mejores de lo que son. Esta prueba utilizó un proyecto de trabajo real con un documento de diseño; solo Codex-Spark produjo código completamente escrito (pero con errores). El punto: los modelos locales aún no están listos para la generación de código complejo sin correcciones sustanciales.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Anthropic presenta una demanda para evitar que el Pentágono la incluya en la lista negra por restricciones de IA.
Anthropic ha presentado una demanda para impedir que el Pentágono la incluya en la lista negra por restricciones en el uso de IA, según un informe de Reuters compartido en Hacker News.

El volumen de código generado por IA abruma a los ingenieros senior, según un estudio.
Los usuarios de IA fusionan un 98% más de pull requests con asistencia de IA, pero los ingenieros senior reportan mayor carga cognitiva y agotamiento. La investigación muestra que la detección de defectos cae del 87% para PRs menores a 100 líneas al 28% para PRs mayores a 1,000 líneas.

Desarrollador de FFmpeg acusa a OxideAV de lavado de licencias de IA en el problema de MagicYUV
Un desarrollador de FFmpeg ha abierto un issue en el repositorio magicyuv de OxideAV, cuestionando la licencia del proyecto y alegando un lavado de licencia asistido por IA de código GPL.

La inteligencia inefable de David Silver recauda $1.1B para un superaprendiz basado en RL sin datos humanos
Ineffable Intelligence, fundada por el exalumno de DeepMind David Silver, recaudó $1.1B con una valoración de $5.1B para construir un 'superaprendiz' basado en aprendizaje por refuerzo que descubre conocimiento sin datos humanos.