Título del artículo: Código Abierto vs Modelos Frontera: Benchmark de Escena de Coche en Lienzo de Archivo Único

✍️ OpenClawRadar📅 Publicado: 17 de mayo de 2026🔗 Source

Un desarrollador ejecutó el mismo prompt de Canvas en un solo archivo en 12 modelos para comparar las capacidades de modelos de código abierto y fronterizos en una escena realista de un coche en movimiento vista lateral. La tarea: un archivo HTML independiente, sin librerías, sin recursos externos, con paisaje de paralaje, ruedas giratorias, sutil movimiento del cuerpo, iluminación cinematográfica y bucle continuo. El banco de pruebas es OpenCodeOrchestra, y los resultados están en vivo en oco-canvas-car-scene-compare.

Modelos probados

Cada modelo se ejecutó en un Orchestrator aislado con la configuración de pensamiento/esfuerzo más alta disponible. La lista incluye GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (máximo esfuerzo), Claude Opus 4.6 (máximo esfuerzo), Claude Sonnet 4.6 (alto esfuerzo), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus y Grok 4.3. No se midieron tokens por segundo ni tiempo de generación.

Conclusiones clave

Algunos modelos utilizaron internamente modelos auditores; otros no.
Ganadores claros y resultados ambiguos son visibles en la galería.
MiMo V2.5 Pro fue excluido debido a problemas de facturación con la suscripción OpenCode Go.

La página de la galería permite la comparación lado a lado de la salida de cada modelo. El código fuente está en GitHub en AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Lea la fuente completa: r/LocalLLaMA

👀 Ver también

Noticias

El Mínimo de Cinco Asientos de Claude Crea una Brecha de Privacidad para los Profesionales Independientes

Las protecciones de privacidad del nivel empresarial de Anthropic requieren un mínimo de cinco asientos, lo que obliga a los profesionales independientes a pagar por asientos vacíos o usar planes de consumo con términos de privacidad inadecuados. Esta brecha contrasta con Google Workspace y los planes empresariales de OpenAI, que ofrecen privacidad de nivel empresarial con precios por asiento individual.

14 abr 2026, 11:45 UTC

OpenClawRadar

Noticias

Claude Code v2.1.158: Modo Auto ahora en Bedrock, Vertex, Foundry para Opus 4.7/4.8

Claude Code v2.1.158 habilita el modo automático en Bedrock, Vertex y Foundry para Opus 4.7 y 4.8. Actívalo con CLAUDE_CODE_ENABLE_AUTO_MODE=1.

30 may 2026, 12:16 UTC

OpenClawRadar

Noticias

Tokenmaxxing es el nuevo cronómetro: Por qué tu política de IA debe ser coherente

Brian Meeker argumenta en contra de las métricas vanidosas como el 'tokenmaxxing' y comparte la política de IA de cuatro puntos de su equipo: sin imposición, entender el código generado, poder trabajar sin herramientas de IA y preocuparse por los compañeros y clientes.

15 may 2026, 10:16 UTC

OpenClawRadar

Noticias

Claude Code v2.1.68: Opus 4.6 por defecto usa esfuerzo medio, reintroduce la palabra clave ultrathink

Claude Code v2.1.68 cambia el nivel de esfuerzo predeterminado para Opus 4.6 a medio para suscriptores Max y Team, reintroduce la palabra clave 'ultrathink' para esfuerzo alto, y elimina los modelos Opus 4 y 4.1 más antiguos de la API de primera parte.

7 mar 2026, 17:45 UTC

OpenClawRadar