Kimi K2.6 vs Claude Opus 4.7：Minetest Mod実機テスト結果

奇妙なコーディングタスクにおける2つのモデルの興味深い実世界比較：TypeScriptバックエンドでMinetest/Luantiのバウンティボードゲームmodを構築し、さらにComposioを介したGoogle Sheetsログで拡張。両モデルに同じプロンプトが与えられました。詳細はソース記事をご覧ください。

セットアップ

Claude Opus 4.7：Claude Code経由
Kimi K2.6：OpenCode on OpenRouter経由
タスク：プレイヤーがワールドに参加し、/bountyを実行し、タスクを取得し、完了し、報酬を受け取り、バックエンドが完了を記録。2番目のテスト：Composioを介してGoogle Sheetsに完了を記録。

料金

Opus 4.7：入力$5/百万トークン、出力$25/百万トークン
Kimi K2.6：入力$0.95/百万トークン、出力$4/百万トークン（キャッシュ入力$0.16/百万トークン）

テスト1：ローカルバウンティボード

Opus 4.7：クリーンなMVP。Express/Zod/Vitestバックエンド、Lua mod、/bountyフロー、報酬、リーダーボード、テスト合格。統計：

コスト：約$3.59
時間：API 12分、実時間23分
コード：+1,688 / -0
出力トークン：54.8k
キャッシュ読み取り：2.8M

Kimi K2.6：ローカルボードも動作したが、より乱雑。Opusの1,688行に対して4,671行のコードを記述（+4,671 / -0）— 2倍以上のコード量。コスト：約$0.39。時間：約9分27秒。厄介な点：Minetestの設定。グローバル設定にsecure.http_mods = bountykimiと記述したが、異なるmod名のワールドレベル設定を作成したため、HTTP APIが実行中のmodで有効にならなかった。テスト担当者が30分以上かけてデバッグ。

テスト2：Composio + Google Sheets

Opus 4.7：Google Sheets同期が動作。tsx watchと環境変数読み込みに関するやり取りの後、バックエンドがバウンティを完了してSheetsに追加できるようになった。統計：

コスト：$16.03
時間：API 28分、実時間1時間17分
コード：+1,848 / -507
キャッシュ読み取り：22.3M
出力：123.3kトークン

Kimi K2.6：失敗。開発サーバーの問題、テスト、ビルド問題で行き詰まり。Composio統合を動作状態にできず。約25分と135k+トークンの後、テスト担当者が中止。コスト：約$5.03。

結論

最良のローカルMVP：Opus、しかしKimiははるかにコストパフォーマンスが良い
最良の実際の統合：Opusが圧倒的
よりクリーンなコード：Opus
より安価な実験モデル：Kimi

テストにより、Kimi K2.6はより安価なローカルコーディングタスクには興味深いことが示されました。0.39ドルで動作するLua+TypeScript modを入手できるのは悪くありません。しかし、タスクに外部ツール、設定の問題、実際の統合作業が含まれると、Opus 4.7が明らかに優れていました。

コミット、スクリーンショット、デモ、コストを含む完全な内訳はソースリンクをご覧ください。

📖 完全なソースを読む： r/ClaudeAI