Kimi K2.6 vs Claude Opus 4.7: Prueba real con mod Minetest

Comparación interesante del mundo real entre dos modelos en una tarea de programación peculiar: crear un mod de tablón de recompensas para el juego Minetest/Luanti con un backend en TypeScript, y luego extenderlo con registro en Google Sheets mediante Composio. Ambos modelos recibieron las mismas indicaciones. Detalles en la publicación original.

Configuración

Claude Opus 4.7: mediante Claude Code
Kimi K2.6: mediante OpenCode en OpenRouter
Tarea: el jugador se une al mundo, ejecuta /bounty, obtiene una tarea, la completa, recibe una recompensa, el backend registra la finalización. Segunda prueba: registrar las finalizaciones en Google Sheets mediante Composio.

Precios

Opus 4.7: $5/M entrada, $25/M salida
Kimi K2.6: $0.95/M entrada, $4/M salida (entrada en caché $0.16/M)

Prueba 1: Tablón de recompensas local

Opus 4.7: MVP limpio. Backend con Express/Zod/Vitest, mod Lua, flujo /bounty, recompensas, tabla de clasificación, pruebas aprobadas. Estadísticas:

Costo: ~$3.59
Tiempo: 12min API, 23min reales
Código: +1,688 / -0
Tokens de salida: 54.8k
Lectura de caché: 2.8M

Kimi K2.6: También hizo funcionar el tablón local, pero más desordenado. Escribió 4,671 líneas de código (+4,671 / -0) frente a las 1,688 de Opus, más del doble de código. Costo: ~$0.39. Tiempo: ~9min 27seg. La parte molesta: la configuración de Minetest. Escribió secure.http_mods = bountykimi en la configuración global, pero creó una configuración a nivel de mundo con un nombre de mod diferente, por lo que la API HTTP no estaba habilitada para el mod en ejecución. Al evaluador le tomó más de 30 minutos depurarlo.

Prueba 2: Composio + Google Sheets

Opus 4.7: Logró que la sincronización con Google Sheets funcionara. Después de varios intercambios sobre tsx watch y carga de variables de entorno, el backend pudo completar una recompensa y añadirla a Sheets. Estadísticas:

Costo: $16.03
Tiempo: 28min API, 1h 17min reales
Código: +1,848 / -507
Lectura de caché: 22.3M
Salida: 123.3k tokens

Kimi K2.6: Falló. Se quedó atascado con problemas del servidor de desarrollo, pruebas y problemas de compilación. Nunca logró que la integración con Composio funcionara. Después de ~25 min y más de 135k tokens, el evaluador se detuvo. Costo: ~$5.03.

Conclusión

Mejor MVP local: Opus, pero Kimi es mucho mejor relación calidad-precio
Mejor integración real: Opus por mucho
Código más limpio: Opus
Modelo más barato para experimentar: Kimi

Las pruebas muestran que Kimi K2.6 es interesante para tareas de codificación local más baratas: por $0.39 obtener un mod funcional en Lua+TypeScript no está mal. Pero una vez que la tarea involucró herramientas externas, problemas de configuración y trabajo de integración real, Opus 4.7 estuvo claramente por delante.

Desglose completo con commits, capturas de pantalla, demostraciones y costos en el enlace de la fuente.

📖 Lee la fuente completa: r/ClaudeAI

Kimi K2.6 vs Claude Opus 4.7: Prueba práctica con un mod de tablón de recompensas para Minetest

Configuración

Precios

Prueba 1: Tablón de recompensas local

Prueba 2: Composio + Google Sheets

Conclusión

👀 Ver también

Tarjeta de Modelo de Claude Opus 4.7 Publicada

El desarrollador cambia a Minimax 2.7 tras la prohibición de Claude y los problemas de crédito de MiMo.

Liberación de Claude-Code v2.1.25: Corrección de Error de Validación

Claude Code v2.1.149: Desglose de uso, correcciones de permisos y navegación por teclado