Kimi K2.6 vs Claude Opus 4.7: Prueba de codificación en Minetest

¿Cuál es la prueba?

Un desarrollador comparó a Kimi K2.6 y Claude Opus 4.7 en una tarea de codificación de dos partes: construir un mod de juego de tablero de recompensas para Minetest/Luanti con un backend en TypeScript, y luego extenderlo con registro en Google Sheets a través de Composio. Ambos modelos recibieron las mismas indicaciones y se evaluaron en resultado funcional, calidad de código, dificultad de depuración, tiempo, uso de tokens y costo.

Configuración: Claude Opus 4.7 mediante Claude Code, Kimi K2.6 mediante OpenCode en OpenRouter. Mismo repositorio, mismos criterios de éxito.

Prueba 1: Tablero de recompensas local

Claude Opus 4.7 construyó un backend con Express/Zod/Vitest, un mod Lua, el flujo /bounty, recompensas y un tablero de clasificación con pruebas exitosas.

Costo: ~$3.59
Tiempo: 12 min API, 23 min total
Código: +1,688 / -0
Salida: 54.8k tokens
Lectura de caché: 2.8M tokens

Kimi K2.6 también logró que el tablero de recompensas local funcionara — rutas de backend, mod Lua, flujo básico del juego — pero el código fue más desordenado. Escribió secure.http_mods = bountykimi en la configuración global, pero también creó una configuración a nivel de mundo con un nombre de mod diferente, por lo que la API HTTP no estaba habilitada para el mod en ejecución. La depuración tomó más de 30 minutos.

Costo: ~$0.39
Duración: ~9 min 27 s
Cambios de código: +4,671 / -0 (2.7 veces más que Opus)
Contexto usado: 52,073 tokens
Ventana de contexto: 20%

Veredicto: Ambos pasaron la Prueba 1, pero la salida de Opus fue más limpia y pequeña.

Prueba 2: Composio + Google Sheets

Claude Opus 4.7 logró que la sincronización con Google Sheets funcionara después de varios intercambios sobre tsx watch y carga de variables de entorno. El backend pudo completar una recompensa y añadir datos a Google Sheets a través de Composio.

Costo: $16.03 (doloroso)
Tiempo: 28 min API, 1 h 17 min total
Código: +1,848 / -507
Lectura de caché: 22.3M tokens
Salida: 123.3k tokens

Kimi K2.6 falló. Se quedó atascado en problemas del servidor de desarrollo, pruebas y problemas de compilación, y nunca logró que la integración con Composio funcionara correctamente. Después de ~25 minutos y más de 135k tokens, se detuvo la prueba.

Costo: ~$5.03
Tiempo: ~25 min
Tokens: 135k+

Conclusiones clave

Mejor MVP local: Opus (más limpio), pero Kimi tiene mucha mejor relación calidad-precio.
Mejor integración real: Opus por un amplio margen.
Código más limpio: Opus (1.7k frente a 4.7k líneas para la misma tarea).
Modelo más barato para experimentos: Kimi K2.6.
Costo más doloroso: Opus ($16 por la sincronización con Google Sheets).

Kimi K2.6 es interesante para tareas de codificación locales baratas — $0.39 por un mod funcional de Lua + TypeScript es impresionante. Pero cuando se involucran herramientas externas, problemas de configuración e integración real, Opus 4.7 sigue siendo claramente superior.

📖 Leer la fuente completa: r/LocalLLaMA

Título: Kimi K2.6 vs Claude Opus 4.7: Un enfrentamiento práctico de codificación en un mod de Minetest con integración de Google Sheets

¿Cuál es la prueba?

Prueba 1: Tablero de recompensas local

Prueba 2: Composio + Google Sheets

Conclusiones clave

👀 Ver también

Suscriptores de la UE reportan límites no divulgados en el uso de Claude Pro – Posible violación de la ley del consumidor

El desarrollador de Claude Code reconoce fallo en el pensamiento adaptativo, proporciona solución alternativa.

Anthropic Aclara la Política de Uso de la CLI de Claude para la Integración de OpenClaw

La empresa de IA de Medvi, valorada en $1.8 mil millones, enfrenta escrutinio por sus afirmaciones sobre problemas legales y éticos.