Kimi K2.6 vs Claude Opus 4.7: Prueba práctica con un mod de tablón de recompensas para Minetest

Comparación interesante del mundo real entre dos modelos en una tarea de programación peculiar: crear un mod de tablón de recompensas para el juego Minetest/Luanti con un backend en TypeScript, y luego extenderlo con registro en Google Sheets mediante Composio. Ambos modelos recibieron las mismas indicaciones. Detalles en la publicación original.
Configuración
- Claude Opus 4.7: mediante Claude Code
- Kimi K2.6: mediante OpenCode en OpenRouter
- Tarea: el jugador se une al mundo, ejecuta
/bounty, obtiene una tarea, la completa, recibe una recompensa, el backend registra la finalización. Segunda prueba: registrar las finalizaciones en Google Sheets mediante Composio.
Precios
- Opus 4.7: $5/M entrada, $25/M salida
- Kimi K2.6: $0.95/M entrada, $4/M salida (entrada en caché $0.16/M)
Prueba 1: Tablón de recompensas local
Opus 4.7: MVP limpio. Backend con Express/Zod/Vitest, mod Lua, flujo /bounty, recompensas, tabla de clasificación, pruebas aprobadas. Estadísticas:
- Costo: ~$3.59
- Tiempo: 12min API, 23min reales
- Código: +1,688 / -0
- Tokens de salida: 54.8k
- Lectura de caché: 2.8M
Kimi K2.6: También hizo funcionar el tablón local, pero más desordenado. Escribió 4,671 líneas de código (+4,671 / -0) frente a las 1,688 de Opus, más del doble de código. Costo: ~$0.39. Tiempo: ~9min 27seg. La parte molesta: la configuración de Minetest. Escribió secure.http_mods = bountykimi en la configuración global, pero creó una configuración a nivel de mundo con un nombre de mod diferente, por lo que la API HTTP no estaba habilitada para el mod en ejecución. Al evaluador le tomó más de 30 minutos depurarlo.
Prueba 2: Composio + Google Sheets
Opus 4.7: Logró que la sincronización con Google Sheets funcionara. Después de varios intercambios sobre tsx watch y carga de variables de entorno, el backend pudo completar una recompensa y añadirla a Sheets. Estadísticas:
- Costo: $16.03
- Tiempo: 28min API, 1h 17min reales
- Código: +1,848 / -507
- Lectura de caché: 22.3M
- Salida: 123.3k tokens
Kimi K2.6: Falló. Se quedó atascado con problemas del servidor de desarrollo, pruebas y problemas de compilación. Nunca logró que la integración con Composio funcionara. Después de ~25 min y más de 135k tokens, el evaluador se detuvo. Costo: ~$5.03.
Conclusión
- Mejor MVP local: Opus, pero Kimi es mucho mejor relación calidad-precio
- Mejor integración real: Opus por mucho
- Código más limpio: Opus
- Modelo más barato para experimentar: Kimi
Las pruebas muestran que Kimi K2.6 es interesante para tareas de codificación local más baratas: por $0.39 obtener un mod funcional en Lua+TypeScript no está mal. Pero una vez que la tarea involucró herramientas externas, problemas de configuración y trabajo de integración real, Opus 4.7 estuvo claramente por delante.
Desglose completo con commits, capturas de pantalla, demostraciones y costos en el enlace de la fuente.
📖 Lee la fuente completa: r/ClaudeAI
👀 Ver también

Tarjeta de Modelo de Claude Opus 4.7 Publicada
Anthropic ha publicado la ficha técnica del modelo Claude Opus 4.7, proporcionando documentación técnica para su último modelo de IA. El material fuente parece ser un documento PDF que contiene especificaciones del sistema y detalles técnicos.

El desarrollador cambia a Minimax 2.7 tras la prohibición de Claude y los problemas de crédito de MiMo.
Un desarrollador probó múltiples modelos de IA para OpenClaw después de que Claude fuera prohibido, encontrando que GLM 5.1 y 5 Turbo eran ineficaces para tareas de agente, el sistema de créditos de MiMo V2 Pro ineficiente, y finalmente optó por Minimax 2.7 por su generosa cuota y capacidad para manejar tareas de automatización.

Liberación de Claude-Code v2.1.25: Corrección de Error de Validación
Claude-Code v2.1.25 aborda un problema de validación de encabezados beta que afecta a los usuarios de gateway en Bedrock y Vertex, con una solución alternativa a través de una variable de entorno específica.

Claude Code v2.1.149: Desglose de uso, correcciones de permisos y navegación por teclado
Claude Code v2.1.149 añade desglose de uso por categoría, vista diff con desplazamiento por teclado, casillas de verificación GFM y corrige varias vulnerabilidades de permisos y problemas de sandbox.