Título do artigo: Kimi K2.6 vs Claude Opus 4.7: Teste Prático com um Mod de Quadro de Recompensas do Minetest

Comparação real interessante de dois modelos em uma tarefa de codificação incomum: construir um mod de jogo de quadro de recompensas para Minetest/Luanti com um backend TypeScript e, em seguida, estendê-lo com registro no Google Sheets através do Composio. Ambos os modelos receberam os mesmos prompts. Detalhes do post original.
Configuração
- Claude Opus 4.7: via Claude Code
- Kimi K2.6: via OpenCode no OpenRouter
- Tarefa: jogador entra no mundo, executa
/bounty, recebe tarefa, completa, ganha recompensa, backend registra conclusão. Segundo teste: registrar conclusões no Google Sheets via Composio.
Preços
- Opus 4.7: $5/M entrada, $25/M saída
- Kimi K2.6: $0,95/M entrada, $4/M saída (entrada em cache $0,16/M)
Teste 1: Quadro de Recompensas Local
Opus 4.7: MVP limpo. Backend Express/Zod/Vitest, mod Lua, fluxo /bounty, recompensas, ranking, testes passaram. Estatísticas:
- Custo: ~$3,59
- Tempo: 12min API, 23min no total
- Código: +1.688 / -0
- Tokens de saída: 54,8k
- Cache lido: 2,8M
Kimi K2.6: Também fez o quadro local funcionar, mas mais bagunçado. Escreveu 4.671 linhas de código (+4.671 / -0) contra 1.688 do Opus — mais de 2× mais código. Custo: ~$0,39. Tempo: ~9min 27s. A parte irritante: configuração do Minetest. Ele escreveu secure.http_mods = bountykimi no config global, mas criou um config de mundo com um nome de mod diferente, então a API HTTP não foi habilitada para o mod em execução. O testador levou mais de 30 minutos para depurar.
Teste 2: Composio + Google Sheets
Opus 4.7: Sincronização com Google Sheets funcionou. Após algumas idas e vindas sobre tsx watch e carregamento de env, o backend conseguiu completar uma recompensa e anexar ao Sheets. Estatísticas:
- Custo: $16,03
- Tempo: 28min API, 1h 17min no total
- Código: +1.848 / -507
- Cache lido: 22,3M
- Saída: 123,3k tokens
Kimi K2.6: Falhou. Empacou em problemas de servidor dev, testes, problemas de build. Nunca conectou a integração Composio a um estado funcional. Após ~25 min e 135k+ tokens, o testador parou. Custo: ~$5,03.
Conclusão
- Melhor MVP local: Opus, mas Kimi tem custo-benefício muito melhor
- Melhor integração real: Opus, de longe
- Código mais limpo: Opus
- Modelo mais barato para experimentos: Kimi
O teste mostra que o Kimi K2.6 é interessante para tarefas locais de codificação mais baratas — por $0,39 conseguir um mod funcional em Lua+TypeScript não é ruim. Mas quando a tarefa envolveu ferramentas externas, problemas de configuração e trabalho de integração real, o Opus 4.7 ficou claramente à frente.
Detalhamento completo com commits, capturas de tela, demos e custos no link da fonte.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

A Anthropic Abandona Compromisso-Chave de Segurança de sua Política de Escalabilidade Responsável
A Anthropic removeu o compromisso central de sua Política de Escalonamento Responsável que exigia garantir medidas de segurança adequadas antes de treinar sistemas de IA, citando pressão competitiva e a necessidade de continuar o desenvolvimento.

Claude Opus 4.6 Quebra Referências de Arquivos CLAUDE.md
Usuários relatam que o Claude Opus 4.6 não carrega mais automaticamente os arquivos referenciados no CLAUDE.md, exigindo intervenção manual para cada arquivo.

Claude-Code v2.1.91 adiciona persistência de resultados MCP, controles de execução de shell e deep links multilinha
Claude-Code v2.1.91 introduz a substituição de persistência de resultados de ferramentas MCP via anotação _meta["anthropic/maxResultSizeChars"] suportando até 500 mil caracteres, adiciona a configuração disableSkillShellExecution e habilita prompts de múltiplas linhas em deep links claude-cli://open?q= com novas linhas codificadas.

Pentágono adotará IA da Palantir como sistema central das forças armadas dos EUA
O Pentágono planeja adotar a tecnologia de IA da Palantir como um sistema central para as forças armadas dos EUA, de acordo com um memorando. O artigo da Reuters gerou 47 pontos e 2 comentários no Hacker News.