YC-Bench: Pruebas de Referencia que Evalúan a los LLM como CEOs de Startups, GLM-5 Demuestra una Fuerte Relación Costo-Eficiencia

YC-Bench: Un punto de referencia de simulación de startups a largo plazo
Los investigadores han desarrollado YC-Bench, un punto de referencia donde un LLM asume el papel de director ejecutivo en un entorno de startup simulado durante un año completo, involucrando cientos de turnos de decisión. La simulación requiere gestionar empleados, seleccionar contratos, manejar nóminas y navegar un mercado donde aproximadamente el 35% de los clientes inflan secretamente los requisitos de trabajo después de aceptar la tarea. La retroalimentación es tardía y escasa, sin proporcionar asistencia a los modelos.
Resultados del punto de referencia y hallazgos clave
El punto de referencia probó 12 modelos con 3 semillas cada uno. La tabla de clasificación muestra:
- 🥇 Claude Opus 4.6 - 1,27 millones de dólares promedio en fondos finales (~86 dólares por ejecución en costo de API)
- 🥈 GLM-5 - 1,21 millones de dólares promedio en fondos finales (~7,62 dólares por ejecución)
- 🥉 GPT-5.4 - 1,00 millón de dólares promedio en fondos finales (~23 dólares por ejecución)
- Todos los demás modelos se desempeñaron por debajo del capital inicial de 200.000 dólares, con varios en bancarrota
GLM-5 se destaca como un hallazgo significativo, desempeñándose dentro del 5% de Claude Opus en rendimiento bruto mientras cuesta aproximadamente 11 veces menos por ejecución. Para pipelines de agentes en producción, esto representa una mejora sustancial en eficiencia de costos. Kimi-K2.5 de hecho lidera la tabla de ingresos por dólar de API con 2,5 veces mejor que el siguiente modelo.
Lo que el punto de referencia revela sobre las capacidades de los LLM
El punto de referencia expone la coherencia a largo plazo bajo retroalimentación tardía, una capacidad que la mayoría de las evaluaciones pasan por alto. Cuando la retroalimentación inmediata no está disponible para determinar la calidad de la decisión, la mayoría de los modelos colapsan en bucles, abandonan estrategias establecidas recientemente o continúan aceptando tareas de clientes que ya han identificado como problemáticos.
El predictor más fuerte del éxito no fue el tamaño del modelo ni las puntuaciones tradicionales de referencia, sino si el modelo usaba activamente un bloc de notas persistente para registrar información aprendida. Los modelos de mejor rendimiento reescribieron sus notas aproximadamente 34 veces por ejecución, mientras que los modelos de peor rendimiento promediaron de 0 a 2 entradas.
Recursos e implementación
El punto de referencia es completamente de código abierto con el código disponible en GitHub. El artículo proporciona metodología y resultados detallados, mientras que la tabla de clasificación muestra las clasificaciones actuales de los modelos. Los investigadores animan a otros a ejecutar sus propios modelos y están disponibles para responder consultas.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Claude Skills vs. MCP: Una Pregunta Práctica de Límites para Desarrolladores
Un desarrollador cuestiona dónde el valor de MCP se vuelve decisivo frente a Claude Skills después de que el lanzamiento de Skills dificultó la integración de herramientas, señalando que las instrucciones bien estructuradas a menudo pueden bastar sin límites de protocolo.
El Atlantic informa sobre el aumento de la violencia anti-IA y la reacción política
Bernie Sanders y Steve Bannon denuncian la IA como una amenaza para los trabajadores. Un ataque con cóctel molotov a la casa de Sam Altman y el tiroteo a la casa de un concejal de Indianápolis muestran que la violencia contra los centros de datos está aumentando.

Los Términos del Contrato del Pentágono con OpenAI Permiten 'Cualquier Uso Legal', Incluyendo Posible Vigilancia
OpenAI negoció nuevos términos con el Pentágono que incluyen la frase 'cualquier uso legal', lo que según fuentes permite al ejército utilizar la tecnología de OpenAI para programas de vigilancia masiva si son técnicamente legales. Anthropic fue incluida en la lista negra por negarse a ceder en dos líneas rojas: no a la vigilancia masiva de estadounidenses y no a las armas autónomas letales.

Explorando las complejidades de OpenClaw: Cómo opera.
OpenClaw está revolucionando el panorama de la codificación con IA gracias a su arquitectura innovadora y sus funcionalidades únicas. Descubre el funcionamiento interno de este potente agente de automatización.