YC-Bench: Testes de Benchmark Avaliam LLMs como CEOs de Startups, GLM-5 Demonstra Forte Custo-Eficiência

✍️ OpenClawRadar📅 Publicado: April 13, 2026🔗 Source
YC-Bench: Testes de Benchmark Avaliam LLMs como CEOs de Startups, GLM-5 Demonstra Forte Custo-Eficiência
Ad

YC-Bench: Um Benchmark de Simulação de Startup de Longo Horizonte

Pesquisadores desenvolveram o YC-Bench, um benchmark onde um LLM assume o papel de CEO em um ambiente simulado de startup ao longo de um ano completo, envolvendo centenas de turnos de decisão. A simulação requer gerenciar funcionários, selecionar contratos, lidar com a folha de pagamento e navegar em um mercado onde aproximadamente 35% dos clientes secretamente inflam os requisitos de trabalho após a aceitação da tarefa. O feedback é atrasado e esparso, sem orientação fornecida aos modelos.

Resultados do Benchmark e Principais Descobertas

O benchmark testou 12 modelos com 3 seeds cada. O ranking mostra:

  • 🥇 Claude Opus 4.6 - US$ 1,27 milhão em fundos finais médios (~US$ 86 por execução em custo de API)
  • 🥈 GLM-5 - US$ 1,21 milhão em fundos finais médios (~US$ 7,62 por execução)
  • 🥉 GPT-5.4 - US$ 1,00 milhão em fundos finais médios (~US$ 23 por execução)
  • Todos os outros modelos tiveram desempenho abaixo do capital inicial de US$ 200 mil, com vários indo à falência

O GLM-5 é destacado como uma descoberta significativa, desempenhando-se dentro de 5% do Claude Opus em desempenho bruto, enquanto custa aproximadamente 11× menos para executar. Para pipelines agentes de produção, isso representa uma melhoria substancial na eficiência de custos. O Kimi-K2.5 realmente lidera o gráfico de receita por dólar de API, sendo 2,5× melhor que o próximo modelo.

Ad

O que o Benchmark Revela Sobre as Capacidades dos LLMs

O benchmark expõe a coerência de longo horizonte sob feedback atrasado, uma capacidade que a maioria das avaliações perde. Quando o feedback imediato não está disponível para determinar a qualidade da decisão, a maioria dos modelos entra em colapso em loops, abandona estratégias recentemente estabelecidas ou continua aceitando tarefas de clientes que já identificaram como problemáticos.

O maior preditor de sucesso não foi o tamanho do modelo ou as pontuações tradicionais de benchmark, mas se o modelo usou ativamente um rascunho persistente para registrar informações aprendidas. Os modelos de melhor desempenho reescreveram suas anotações aproximadamente 34 vezes por execução, enquanto os modelos de pior desempenho tiveram uma média de 0–2 entradas.

Recursos e Implementação

O benchmark é totalmente de código aberto, com código disponível no GitHub. O artigo fornece metodologia e resultados detalhados, enquanto o ranking mostra as classificações atuais dos modelos. Os pesquisadores incentivam outros a executarem seus próprios modelos e estão disponíveis para responder a consultas.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Limites de Taxa do Claude Code Podem Ser Devido à Sobrecarga da Janela de Contexto de 1M
News

Limites de Taxa do Claude Code Podem Ser Devido à Sobrecarga da Janela de Contexto de 1M

Um usuário do Reddit teoriza que os limites de taxa e interrupções recentes do Claude Code resultam da janela de contexto de 1 milhão de tokens no Opus 4.6, que pode estar causando compressão de contexto ineficiente e sobrecarga do servidor. Mudar para o modelo mais antigo sem contexto de 1M aparentemente melhora a estabilidade.

OpenClawRadar
Plataforma Polsia Mostra Padrões Repetitivos de SaaS em Lançamentos ao Vivo de Fundadores
News

Plataforma Polsia Mostra Padrões Repetitivos de SaaS em Lançamentos ao Vivo de Fundadores

Polsia é uma plataforma de negócios autônoma onde os usuários descrevem seu negócio, pagam dinheiro, e ela executa autonomamente. Um cientista comportamental observou 72 horas de lançamentos ao vivo de fundadores, identificando padrões repetitivos como soluções de automação de SDR com IA e mercados internacionais subatendidos.

OpenClawRadar
Lançamento do Claude Code v2.1.117: Divisão de Subagentes, Melhorias em Plugins e Correções de Desempenho
News

Lançamento do Claude Code v2.1.117: Divisão de Subagentes, Melhorias em Plugins e Correções de Desempenho

O Claude Code v2.1.117 permite subagentes bifurcados em builds externos via CLAUDE_CODE_FORK_SUBAGENT=1, melhora o gerenciamento de dependências de plugins e corrige os cálculos da janela de contexto do Opus 4.7. A versão inclui inicialização mais rápida com conexões MCP simultâneas e substitui as ferramentas Glob/Grep por bfs/ugrep embutidos no macOS/Linux.

OpenClawRadar
Forbes: A Conta dos Cortes de IA Está Chegando — CTOs Pagarão em Dobro
News

Forbes: A Conta dos Cortes de IA Está Chegando — CTOs Pagarão em Dobro

Forbes argumenta que o custo das demissões impulsionadas por IA atingirá as empresas duas vezes: primeiro em indenizações e moral, depois em recontratações quando os ganhos de eficiência esperados não se concretizarem.

OpenClawRadar