Fonte Aberta vs Modelos de Fronteira: Benchmark de Cena de Carro em Canvas de Arquivo Único

✍️ OpenClawRadar📅 Publicado: May 17, 2026🔗 Source

Um desenvolvedor executou o mesmo prompt de Canvas de arquivo único em 12 modelos para comparar as capacidades de modelos open-source e de fronteira em uma cena realista de carro dirigindo em visão lateral. A tarefa: um arquivo HTML independente, sem bibliotecas, sem ativos externos, com cenário de paralaxe, rodas girando, movimento sutil da carroceria, iluminação cinematográfica e loop contínuo. O ambiente de teste é OpenCodeOrchestra, e os resultados estão disponíveis em oco-canvas-car-scene-compare.

Modelos Testados

Cada modelo foi executado em um Orchestrator isolado com a configuração mais alta de pensamento/esforço disponível. A lista inclui GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (esforço máximo), Claude Opus 4.6 (esforço máximo), Claude Sonnet 4.6 (esforço alto), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus e Grok 4.3. Tok/s e tempo de geração não foram medidos.

Principais Descobertas

Alguns modelos usaram modelos auditores internamente; outros não.
Vencedores claros e resultados ambíguos são visíveis na galeria.
MiMo V2.5 Pro foi excluído devido a problemas de faturamento com a assinatura OpenCode Go.

A página da galeria permite a comparação lado a lado da saída de cada modelo. O código-fonte está no GitHub em AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

News

A Anthropic restringe as assinaturas do Claude por meio de plataformas de terceiros como a OpenClaw.

A Anthropic está encerrando a cobertura de assinatura do Claude para ferramentas de terceiros, incluindo o OpenClaw, a partir de 4 de abril. Os usuários precisarão habilitar o uso extra pago conforme o uso, cobrado separadamente, com um crédito único igual ao preço da assinatura mensal disponível até 17 de abril.

Apr 14, 2026, 10:16 AM UTC

OpenClawRadar

News

CEOs relatam impacto mínimo da IA na produtividade e no emprego em estudo recente

Um estudo com 6.000 executivos descobriu que 90% relataram nenhum impacto da IA no emprego ou na produtividade ao longo de três anos, com o uso médio de IA em 1,5 horas por semana. Economistas comparam isso ao paradoxo da produtividade de Solow da era da TI dos anos 1980.

Apr 20, 2026, 01:45 AM UTC

OpenClawRadar

News

Líder Sênior de IA do Governo Desconhece LLMs Locais: Relato de um Desenvolvedor

Um desenvolvedor de LLM local relata que um líder sênior de IA do governo não sabia por que empresas escolheriam LLMs locais em vez de APIs em nuvem, apesar de entender os conceitos técnicos básicos.

Apr 30, 2026, 08:16 AM UTC

OpenClawRadar

News

RTX 5080 16GB: Qwen3.6 35B MoE em Contexto de 128k — 56 tok/s, e Por Que o MTP Não Ajuda

Novos benchmarks mostram que o Qwen3.6 35B MoE na RTX 5080 16GB atinge 56 tok/s de geração com contexto de 128k. O MTP (Multi-Token Prediction) torna-o 23% mais lento devido à pressão de VRAM que empurra camadas de especialistas para a CPU.

May 20, 2026, 12:16 PM UTC

OpenClawRadar