Fonte Aberta vs Modelos de Fronteira: Benchmark de Cena de Carro em Canvas de Arquivo Único

✍️ OpenClawRadar📅 Publicado: May 17, 2026🔗 Source
Fonte Aberta vs Modelos de Fronteira: Benchmark de Cena de Carro em Canvas de Arquivo Único
Ad

Um desenvolvedor executou o mesmo prompt de Canvas de arquivo único em 12 modelos para comparar as capacidades de modelos open-source e de fronteira em uma cena realista de carro dirigindo em visão lateral. A tarefa: um arquivo HTML independente, sem bibliotecas, sem ativos externos, com cenário de paralaxe, rodas girando, movimento sutil da carroceria, iluminação cinematográfica e loop contínuo. O ambiente de teste é OpenCodeOrchestra, e os resultados estão disponíveis em oco-canvas-car-scene-compare.

Modelos Testados

Cada modelo foi executado em um Orchestrator isolado com a configuração mais alta de pensamento/esforço disponível. A lista inclui GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (esforço máximo), Claude Opus 4.6 (esforço máximo), Claude Sonnet 4.6 (esforço alto), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus e Grok 4.3. Tok/s e tempo de geração não foram medidos.

Ad

Principais Descobertas

  • Alguns modelos usaram modelos auditores internamente; outros não.
  • Vencedores claros e resultados ambíguos são visíveis na galeria.
  • MiMo V2.5 Pro foi excluído devido a problemas de faturamento com a assinatura OpenCode Go.

A página da galeria permite a comparação lado a lado da saída de cada modelo. O código-fonte está no GitHub em AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

🦀
News

Usuários do Plano Claude Recebem Créditos Mensais do SDK de Agentes a Partir de 15 de Junho de 2026

Assinantes dos planos Claude Pro, Max, Team e Enterprise podem solicitar um crédito mensal para uso do Agent SDK, cobrindo claude -p, integração com GitHub Actions e aplicativos de terceiros. Os créditos são renovados mensalmente, são por usuário e não podem ser acumulados.

OpenClawRadar
Benchmark do Apple Silicon: Desempenho do Qwen3-VL em M3, M4 e M5 Max para Classificação com Vision LLM
News

Benchmark do Apple Silicon: Desempenho do Qwen3-VL em M3, M4 e M5 Max para Classificação com Vision LLM

Os resultados de benchmark mostram o desempenho de classificação do modelo de linguagem visionário Qwen3-VL no Apple Silicon: M3 Max e M4 Studio são quase idênticos para modelos de 8B, enquanto o M5 Max é 75-83% mais rápido. A largura de banda da memória importa mais para a geração de tokens do que para o preenchimento em tarefas visuais.

OpenClawRadar
A Delve foi acusada de bifurcar o SimStudio de código aberto da Sim.ai e vendê-lo como Pathways.
News

A Delve foi acusada de bifurcar o SimStudio de código aberto da Sim.ai e vendê-lo como Pathways.

A startup de compliance Delve supostamente fez um fork da ferramenta de código aberto SimStudio da Sim.ai para criar agentes, rebatizou-a como Pathways e a vendeu sem a devida atribuição de licença ou acordo monetário com a Sim.ai, potencialmente violando os termos da licença Apache.

OpenClawRadar
Usuário do OpenClaw relata 143 milhões de tokens processados por US$ 94 via OpenRouter.
News

Usuário do OpenClaw relata 143 milhões de tokens processados por US$ 94 via OpenRouter.

Um usuário do Reddit executando pipelines de multiagentes OpenClaw processou 143 milhões de tokens por US$ 94,16, alcançando um custo de aproximadamente US$ 0,66 por milhão de tokens ao rotear através do OpenRouter e implementar otimizações de configuração específicas.

OpenClawRadar