Kimi K2.6 vs Claude Opus 4.7: Duelo de Programação em Minetest

Qual é o teste?

Um desenvolvedor comparou Kimi K2.6 e Claude Opus 4.7 em uma tarefa de codificação em duas partes: construir um mod de jogo de quadro de avisos Minetest/Luanti com backend TypeScript e, em seguida, estendê-lo com registro no Google Sheets via Composio. Ambos os modelos receberam instruções idênticas e foram avaliados quanto ao resultado funcional, qualidade do código, dificuldade de depuração, tempo, uso de tokens e custo.

Configuração: Claude Opus 4.7 via Claude Code, Kimi K2.6 via OpenCode no OpenRouter. Mesmo repositório, mesmos critérios de sucesso.

Teste 1: Quadro de avisos local

Claude Opus 4.7 construiu um backend Express/Zod/Vitest, mod Lua, fluxo /bounty, recompensas e quadro de líderes com testes aprovados.

Custo: ~$3,59
Tempo: 12 min API, 23 min relógio
Código: +1.688 / -0
Saída: 54,8k tokens
Leitura de cache: 2,8M tokens

Kimi K2.6 também fez o quadro de avisos local funcionar — rotas de backend, mod Lua, fluxo básico do jogo — mas o código estava mais bagunçado. Ele escreveu secure.http_mods = bountykimi na configuração global, mas também criou uma configuração no nível do mundo com um nome de mod diferente, então a API HTTP não foi ativada para o mod realmente em execução. A depuração levou mais de 30 minutos.

Custo: ~$0,39
Duração: ~9 min 27 seg
Alterações de código: +4.671 / -0 (2,7x mais que Opus)
Contexto usado: 52.073 tokens
Janela de contexto: 20%

Veredito: Ambos passaram no Teste 1, mas a saída de Opus foi mais limpa e menor.

Teste 2: Composio + Google Sheets

Claude Opus 4.7 fez a sincronização com o Google Sheets funcionar após algumas idas e vindas sobre tsx watch e carregamento de env. O backend conseguiu completar uma recompensa e anexar ao Google Sheets via Composio.

Custo: $16,03 (doloroso)
Tempo: 28 min API, 1 hr 17 min relógio
Código: +1.848 / -507
Leitura de cache: 22,3M tokens
Saída: 123,3k tokens

Kimi K2.6 falhou. Ele ficou preso em problemas de servidor de desenvolvimento, testes e construção, e nunca conectou a integração Composio em um estado funcional limpo. Após ~25 minutos e 135k+ tokens, o teste foi interrompido.

Custo: ~$5,03
Tempo: ~25 min
Tokens: 135k+

Principais conclusões

Melhor MVP local: Opus (mais limpo), mas Kimi tem valor muito melhor.
Melhor integração real: Opus por ampla margem.
Código mais limpo: Opus (1,7k vs 4,7k linhas para a mesma tarefa).
Modelo mais barato para experimentos: Kimi K2.6.
Custo mais doloroso: Opus ($16 para sincronização do Google Sheets).

Kimi K2.6 é interessante para tarefas de codificação locais baratas — $0,39 para um mod Lua + TypeScript funcional é impressionante. Mas quando ferramentas externas, problemas de configuração e integração real estão envolvidos, o Opus 4.7 continua claramente à frente.

📖 Leia a fonte completa: r/LocalLLaMA

Kimi K2.6 vs Claude Opus 4.7: Um Duelo Prático de Programação em um Mod Minetest com Integração ao Google Sheets

Qual é o teste?

Teste 1: Quadro de avisos local

Teste 2: Composio + Google Sheets

Principais conclusões

👀 See Also

Claude Code v2.1.146: Comando /code-review, Correção de Paginação, Correção do Windows PowerShell

Macs para LLM Local e OpenClaw: Gargalo de Processamento de Prompt Torna Nuvem Mais Barata

Um Padrão Aberto para Registros de Execução de Agentes: O Caso para um Esquema de Log Compartilhado

Meta Lança Modelo de IA BOxCrete para Formulação de Misturas de Concreto