Título del artículo: Código Abierto vs Modelos Frontera: Benchmark de Escena de Coche en Lienzo de Archivo Único

✍️ OpenClawRadar📅 Publicado: 17 de mayo de 2026🔗 Source
Título del artículo: Código Abierto vs Modelos Frontera: Benchmark de Escena de Coche en Lienzo de Archivo Único
Ad

Un desarrollador ejecutó el mismo prompt de Canvas en un solo archivo en 12 modelos para comparar las capacidades de modelos de código abierto y fronterizos en una escena realista de un coche en movimiento vista lateral. La tarea: un archivo HTML independiente, sin librerías, sin recursos externos, con paisaje de paralaje, ruedas giratorias, sutil movimiento del cuerpo, iluminación cinematográfica y bucle continuo. El banco de pruebas es OpenCodeOrchestra, y los resultados están en vivo en oco-canvas-car-scene-compare.

Modelos probados

Cada modelo se ejecutó en un Orchestrator aislado con la configuración de pensamiento/esfuerzo más alta disponible. La lista incluye GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (máximo esfuerzo), Claude Opus 4.6 (máximo esfuerzo), Claude Sonnet 4.6 (alto esfuerzo), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus y Grok 4.3. No se midieron tokens por segundo ni tiempo de generación.

Ad

Conclusiones clave

  • Algunos modelos utilizaron internamente modelos auditores; otros no.
  • Ganadores claros y resultados ambiguos son visibles en la galería.
  • MiMo V2.5 Pro fue excluido debido a problemas de facturación con la suscripción OpenCode Go.

La página de la galería permite la comparación lado a lado de la salida de cada modelo. El código fuente está en GitHub en AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Evaluación de LLMs locales: generación de backend mediante llamada a funciones – comparativa entre GLM, Qwen y DeepSeek
Noticias

Evaluación de LLMs locales: generación de backend mediante llamada a funciones – comparativa entre GLM, Qwen y DeepSeek

Un riguroso benchmark de LLMs locales y fronterizos para generación de código backend mediante llamadas a funciones, con rúbrica de puntuación. Hallazgos clave: qwen3.5-35b-a3b iguala a gpt-5.4 en diseño DB/API, y el denso Qwen 27B supera al MoE de 397B. Los modelos fronterizos se eliminaron por costo.

OpenClawRadar
Afirmaciones de inversión en IA del Reino Unido bajo escrutinio: centros de datos fantasmas y financiación no verificada.
Noticias

Afirmaciones de inversión en IA del Reino Unido bajo escrutinio: centros de datos fantasmas y financiación no verificada.

Una investigación de The Guardian revela que el impulso multimillonario del Reino Unido hacia la IA incluye 'inversiones fantasma' con centros de datos alquilados, un sitio para supercomputadoras que sigue operando como depósito de andamios, y afirmaciones no verificadas sobre creación de empleos.

OpenClawRadar
Claude Code agrega entrada de voz con funcionalidad de pulsar para hablar.
Noticias

Claude Code agrega entrada de voz con funcionalidad de pulsar para hablar.

Claude Code está implementando el modo de voz para aproximadamente el 5% de los usuarios inicialmente, con activación por pulsar y mantener la barra espaciadora. Los tokens de transcripción de voz no cuentan contra los límites de tasa y la función se incluye sin costo adicional.

OpenClawRadar
Resultados de Evaluación a Ciega de Gemma 4 vs Qwen 3.5 con Claude Opus como Juez
Noticias

Resultados de Evaluación a Ciega de Gemma 4 vs Qwen 3.5 con Claude Opus como Juez

Una evaluación ciega de 30 preguntas comparó a Gemma 4 31B, Gemma 4 26B-A4B y Qwen 3.5 27B usando a Claude Opus 4.6 como juez. Qwen 3.5 27B ganó el 46.7% de los enfrentamientos, pero tuvo puntuaciones promedio más bajas debido a tres respuestas con puntuación cero.

OpenClawRadar