Kimi K2.6 vs Claude Opus 4.7: Teste Prático em Mod Minetest

Comparação real interessante de dois modelos em uma tarefa de codificação incomum: construir um mod de jogo de quadro de recompensas para Minetest/Luanti com um backend TypeScript e, em seguida, estendê-lo com registro no Google Sheets através do Composio. Ambos os modelos receberam os mesmos prompts. Detalhes do post original.

Configuração

Claude Opus 4.7: via Claude Code
Kimi K2.6: via OpenCode no OpenRouter
Tarefa: jogador entra no mundo, executa /bounty, recebe tarefa, completa, ganha recompensa, backend registra conclusão. Segundo teste: registrar conclusões no Google Sheets via Composio.

Preços

Opus 4.7: $5/M entrada, $25/M saída
Kimi K2.6: $0,95/M entrada, $4/M saída (entrada em cache $0,16/M)

Teste 1: Quadro de Recompensas Local

Opus 4.7: MVP limpo. Backend Express/Zod/Vitest, mod Lua, fluxo /bounty, recompensas, ranking, testes passaram. Estatísticas:

Custo: ~$3,59
Tempo: 12min API, 23min no total
Código: +1.688 / -0
Tokens de saída: 54,8k
Cache lido: 2,8M

Kimi K2.6: Também fez o quadro local funcionar, mas mais bagunçado. Escreveu 4.671 linhas de código (+4.671 / -0) contra 1.688 do Opus — mais de 2× mais código. Custo: ~$0,39. Tempo: ~9min 27s. A parte irritante: configuração do Minetest. Ele escreveu secure.http_mods = bountykimi no config global, mas criou um config de mundo com um nome de mod diferente, então a API HTTP não foi habilitada para o mod em execução. O testador levou mais de 30 minutos para depurar.

Teste 2: Composio + Google Sheets

Opus 4.7: Sincronização com Google Sheets funcionou. Após algumas idas e vindas sobre tsx watch e carregamento de env, o backend conseguiu completar uma recompensa e anexar ao Sheets. Estatísticas:

Custo: $16,03
Tempo: 28min API, 1h 17min no total
Código: +1.848 / -507
Cache lido: 22,3M
Saída: 123,3k tokens

Kimi K2.6: Falhou. Empacou em problemas de servidor dev, testes, problemas de build. Nunca conectou a integração Composio a um estado funcional. Após ~25 min e 135k+ tokens, o testador parou. Custo: ~$5,03.

Conclusão

Melhor MVP local: Opus, mas Kimi tem custo-benefício muito melhor
Melhor integração real: Opus, de longe
Código mais limpo: Opus
Modelo mais barato para experimentos: Kimi

O teste mostra que o Kimi K2.6 é interessante para tarefas locais de codificação mais baratas — por $0,39 conseguir um mod funcional em Lua+TypeScript não é ruim. Mas quando a tarefa envolveu ferramentas externas, problemas de configuração e trabalho de integração real, o Opus 4.7 ficou claramente à frente.

Detalhamento completo com commits, capturas de tela, demos e custos no link da fonte.

📖 Leia a fonte completa: r/ClaudeAI