GLM-5 vs Claude: Benchmark YC-Bench Mostra Custo-Eficiência

YC-Bench: Um Benchmark de Simulação de Startup de Longo Horizonte

Pesquisadores desenvolveram o YC-Bench, um benchmark onde um LLM assume o papel de CEO em um ambiente simulado de startup ao longo de um ano completo, envolvendo centenas de turnos de decisão. A simulação requer gerenciar funcionários, selecionar contratos, lidar com a folha de pagamento e navegar em um mercado onde aproximadamente 35% dos clientes secretamente inflam os requisitos de trabalho após a aceitação da tarefa. O feedback é atrasado e esparso, sem orientação fornecida aos modelos.

Resultados do Benchmark e Principais Descobertas

O benchmark testou 12 modelos com 3 seeds cada. O ranking mostra:

🥇 Claude Opus 4.6 - US$ 1,27 milhão em fundos finais médios (~US$ 86 por execução em custo de API)
🥈 GLM-5 - US$ 1,21 milhão em fundos finais médios (~US$ 7,62 por execução)
🥉 GPT-5.4 - US$ 1,00 milhão em fundos finais médios (~US$ 23 por execução)
Todos os outros modelos tiveram desempenho abaixo do capital inicial de US$ 200 mil, com vários indo à falência

O GLM-5 é destacado como uma descoberta significativa, desempenhando-se dentro de 5% do Claude Opus em desempenho bruto, enquanto custa aproximadamente 11× menos para executar. Para pipelines agentes de produção, isso representa uma melhoria substancial na eficiência de custos. O Kimi-K2.5 realmente lidera o gráfico de receita por dólar de API, sendo 2,5× melhor que o próximo modelo.

O que o Benchmark Revela Sobre as Capacidades dos LLMs

O benchmark expõe a coerência de longo horizonte sob feedback atrasado, uma capacidade que a maioria das avaliações perde. Quando o feedback imediato não está disponível para determinar a qualidade da decisão, a maioria dos modelos entra em colapso em loops, abandona estratégias recentemente estabelecidas ou continua aceitando tarefas de clientes que já identificaram como problemáticos.

O maior preditor de sucesso não foi o tamanho do modelo ou as pontuações tradicionais de benchmark, mas se o modelo usou ativamente um rascunho persistente para registrar informações aprendidas. Os modelos de melhor desempenho reescreveram suas anotações aproximadamente 34 vezes por execução, enquanto os modelos de pior desempenho tiveram uma média de 0–2 entradas.

Recursos e Implementação

O benchmark é totalmente de código aberto, com código disponível no GitHub. O artigo fornece metodologia e resultados detalhados, enquanto o ranking mostra as classificações atuais dos modelos. Os pesquisadores incentivam outros a executarem seus próprios modelos e estão disponíveis para responder a consultas.

📖 Read the full source: r/LocalLLaMA

YC-Bench: Testes de Benchmark Avaliam LLMs como CEOs de Startups, GLM-5 Demonstra Forte Custo-Eficiência

YC-Bench: Um Benchmark de Simulação de Startup de Longo Horizonte

Resultados do Benchmark e Principais Descobertas

O que o Benchmark Revela Sobre as Capacidades dos LLMs

Recursos e Implementação

👀 See Also

Mudanças Frequentes de Quebra no OpenClaw: Procedimentos de Atualização e Problemas Atuais

Claude Skills vs. MCP: Uma Questão Prática de Limites para Desenvolvedores

Chatbots de IA Amigáveis: 30% Menos Precisos, 40% Mais Propensos a Endossar Teorias da Conspiração

Novos Créditos de Assinatura Claude da Anthropic: SDK de Agente e claude -p Ganham Pool Separado com Limite a Partir de 15 de Junho