Kimi K2.6 vs Claude Opus 4.7 : Test de codage Minetest

Quel est le test ?

Un développeur a comparé Kimi K2.6 et Claude Opus 4.7 sur une tâche de codage en deux parties : construire un mod de jeu de tableau de primes pour Minetest/Luanti avec un backend TypeScript, puis l'étendre avec une journalisation Google Sheets via Composio. Les deux modèles ont reçu des invites identiques et ont été évalués sur le résultat fonctionnel, la qualité du code, la difficulté de débogage, le temps, l'utilisation des tokens et le coût.

Configuration : Claude Opus 4.7 via Claude Code, Kimi K2.6 via OpenCode sur OpenRouter. Même dépôt, mêmes critères de succès.

Test 1 : Tableau de primes local

Claude Opus 4.7 a construit un backend Express/Zod/Vitest, un mod Lua, un flux /bounty, des récompenses et un classement avec des tests passants.

Coût : ~3,59 $
Temps : 12 min API, 23 min horloge
Code : +1 688 / -0
Sortie : 54,8k tokens
Cache lu : 2,8M tokens

Kimi K2.6 a également fait fonctionner le tableau de primes local — routes backend, mod Lua, flux de jeu basique — mais le code était plus désordonné. Il a écrit secure.http_mods = bountykimi dans la configuration globale, mais a aussi créé une configuration au niveau du monde avec un nom de mod différent, donc l'API HTTP n'était pas activée pour le mod réellement exécuté. Le débogage a pris plus de 30 minutes.

Coût : ~0,39 $
Durée : ~9 min 27 s
Modifications de code : +4 671 / -0 (2,7 fois plus qu'Opus)
Contexte utilisé : 52 073 tokens
Fenêtre de contexte : 20 %

Verdict : Les deux ont réussi le Test 1, mais la sortie d'Opus était plus propre et plus petite.

Test 2 : Composio + Google Sheets

Claude Opus 4.7 a fait fonctionner la synchronisation Google Sheets après quelques allers-retours sur tsx watch et le chargement d'environnement. Le backend pouvait compléter une prime et ajouter des données à Google Sheets via Composio.

Coût : 16,03 $ (douloureux)
Temps : 28 min API, 1 h 17 min horloge
Code : +1 848 / -507
Cache lu : 22,3M tokens
Sortie : 123,3k tokens

Kimi K2.6 a échoué. Il est resté bloqué sur des problèmes de serveur de développement, de tests et de construction, et n'a jamais connecté l'intégration Composio dans un état fonctionnel propre. Après environ 25 minutes et plus de 135k tokens, le test a été arrêté.

Coût : ~5,03 $
Temps : ~25 min
Tokens : 135k+

Principaux enseignements

Meilleur MVP local : Opus (plus propre), mais Kimi offre un bien meilleur rapport qualité-prix.
Meilleure intégration réelle : Opus d'une large marge.
Code plus propre : Opus (1,7k contre 4,7k lignes pour la même tâche).
Modèle d'expérimentation le moins cher : Kimi K2.6.
Coût le plus douloureux : Opus (16 $ pour la synchronisation Google Sheets).

Kimi K2.6 est intéressant pour les tâches de codage locales peu coûteuses — 0,39 $ pour un mod Lua + TypeScript fonctionnel est impressionnant. Mais quand des outils externes, des problèmes de configuration et une intégration réelle sont impliqués, Opus 4.7 reste clairement en tête.

📖 Lire la source complète : r/LocalLLaMA

Kimi K2.6 contre Claude Opus 4.7 : Confrontation pratique de codage sur un mod Minetest avec intégration Google Sheets

Quel est le test ?

Test 1 : Tableau de primes local

Test 2 : Composio + Google Sheets

Principaux enseignements

👀 See Also

OpenClaw organise son premier AMA : aperçu des agents de codage IA

Un moteur PHP écrit en Rust par une IA passe 17 % des tests de PHP-src et exécute WordPress

Étude sur l'IA Cursor : Les gains de vitesse à court terme entraînent une complexité à long terme

Terry Tao sur les vérificateurs de preuve IA : Lean, collaboration et mathématiques formelles