YC-Bench: Pruebas de Referencia que Evalúan a los LLM como CEOs de Startups, GLM-5 Demuestra una Fuerte Relación Costo-Eficiencia

YC-Bench: Un punto de referencia de simulación de startups a largo plazo

Los investigadores han desarrollado YC-Bench, un punto de referencia donde un LLM asume el papel de director ejecutivo en un entorno de startup simulado durante un año completo, involucrando cientos de turnos de decisión. La simulación requiere gestionar empleados, seleccionar contratos, manejar nóminas y navegar un mercado donde aproximadamente el 35% de los clientes inflan secretamente los requisitos de trabajo después de aceptar la tarea. La retroalimentación es tardía y escasa, sin proporcionar asistencia a los modelos.

Resultados del punto de referencia y hallazgos clave

El punto de referencia probó 12 modelos con 3 semillas cada uno. La tabla de clasificación muestra:

🥇 Claude Opus 4.6 - 1,27 millones de dólares promedio en fondos finales (~86 dólares por ejecución en costo de API)
🥈 GLM-5 - 1,21 millones de dólares promedio en fondos finales (~7,62 dólares por ejecución)
🥉 GPT-5.4 - 1,00 millón de dólares promedio en fondos finales (~23 dólares por ejecución)
Todos los demás modelos se desempeñaron por debajo del capital inicial de 200.000 dólares, con varios en bancarrota

GLM-5 se destaca como un hallazgo significativo, desempeñándose dentro del 5% de Claude Opus en rendimiento bruto mientras cuesta aproximadamente 11 veces menos por ejecución. Para pipelines de agentes en producción, esto representa una mejora sustancial en eficiencia de costos. Kimi-K2.5 de hecho lidera la tabla de ingresos por dólar de API con 2,5 veces mejor que el siguiente modelo.

Lo que el punto de referencia revela sobre las capacidades de los LLM

El punto de referencia expone la coherencia a largo plazo bajo retroalimentación tardía, una capacidad que la mayoría de las evaluaciones pasan por alto. Cuando la retroalimentación inmediata no está disponible para determinar la calidad de la decisión, la mayoría de los modelos colapsan en bucles, abandonan estrategias establecidas recientemente o continúan aceptando tareas de clientes que ya han identificado como problemáticos.

El predictor más fuerte del éxito no fue el tamaño del modelo ni las puntuaciones tradicionales de referencia, sino si el modelo usaba activamente un bloc de notas persistente para registrar información aprendida. Los modelos de mejor rendimiento reescribieron sus notas aproximadamente 34 veces por ejecución, mientras que los modelos de peor rendimiento promediaron de 0 a 2 entradas.

Recursos e implementación

El punto de referencia es completamente de código abierto con el código disponible en GitHub. El artículo proporciona metodología y resultados detallados, mientras que la tabla de clasificación muestra las clasificaciones actuales de los modelos. Los investigadores animan a otros a ejecutar sus propios modelos y están disponibles para responder consultas.

📖 Read the full source: r/LocalLLaMA

YC-Bench: Pruebas de Referencia que Evalúan a los LLM como CEOs de Startups, GLM-5 Demuestra una Fuerte Relación Costo-Eficiencia

YC-Bench: Un punto de referencia de simulación de startups a largo plazo

Resultados del punto de referencia y hallazgos clave

Lo que el punto de referencia revela sobre las capacidades de los LLM

Recursos e implementación

👀 Ver también

Claude Code v2.1.157: Carga automática de plugins desde .claude/skills, Agentes mejorados y Worktrees

Claude-Code v2.1.30 lanzado con mejoras en PDF y OAuth.

Profundización en la Cuantización de Caché KV de Qwen: PPL, Divergencia KL y Resultados Asimétricos de K/V

Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026