Kimi K2.6 vs Claude Opus 4.7：Minetest Mod実践対決

テスト内容

開発者がKimi K2.6とClaude Opus 4.7を、2部構成のコーディングタスク（Minetest/LuantiのバウンティボードゲームMODをTypeScriptバックエンドで構築し、その後Composio経由のGoogle Sheetsログ機能で拡張）で比較しました。両モデルに同一のプロンプトを与え、動作結果、コード品質、デバッグの手間、時間、トークン使用量、コストを評価しました。

セットアップ： Claude Opus 4.7はClaude Code経由、Kimi K2.6はOpenRouter上のOpenCode経由。同じリポジトリ、同じ合格条件。

テスト1：ローカルバウンティボード

Claude Opus 4.7はExpress/Zod/Vitestのバックエンド、Lua MOD、/bountyフロー、報酬、リーダーボードを合格するテスト付きで構築しました。

コスト：約$3.59
時間：API 12分、実時間23分
コード：+1,688 / -0
出力トークン：54.8k
キャッシュ読み込み：2.8Mトークン

Kimi K2.6もローカルバウンティボードを動作させました（バックエンドルート、Lua MOD、基本的なゲームフロー）が、コードはより乱雑でした。グローバル設定にsecure.http_mods = bountykimiと記述した一方、異なるMOD名を持つワールドレベルの設定も作成したため、実際に動作するMODに対してHTTP APIが有効になりませんでした。デバッグには30分以上かかりました。

コスト：約$0.39
時間：約9分27秒
コード変更：+4,671 / -0（Opusの2.7倍）
使用コンテキスト：52,073トークン
コンテキストウィンドウ使用率：20%

判定：両者ともテスト1に合格しましたが、Opusの出力はよりクリーンで小規模でした。

テスト2：Composio + Google Sheets

Claude Opus 4.7は、tsx watchと環境変数ロードに関する試行錯誤の後、Google Sheets同期を動作させました。バックエンドはバウンティを完了し、Composio経由でGoogle Sheetsに追加できました。

コスト：$16.03（痛い）
時間：API 28分、実時間1時間17分
コード：+1,848 / -507
キャッシュ読み込み：22.3Mトークン
出力トークン：123.3k

Kimi K2.6は失敗しました。開発サーバーの問題、テスト、ビルドの問題で行き詰まり、Composio統合を正常に動作させられませんでした。約25分、135k+トークン消費後、テストは中止されました。

コスト：約$5.03
時間：約25分
トークン：135k+

主なポイント

最良のローカルMVP：Opus（よりクリーン）だが、Kimiのコストパフォーマンスははるかに優れている。
最良の実際の統合：Opusが大差で勝利。
クリーンなコード：Opus（同じタスクで1.7k行 vs 4.7k行）。
最も安い実験モデル：Kimi K2.6。
最も痛いコスト：Opus（Google Sheets同期に$16）。

Kimi K2.6は安価なローカルコーディングタスクにおいて興味深い存在です。動作するLua + TypeScript MODを$0.39で作成できるのは印象的です。しかし、外部ツールや設定の問題、実際の統合が絡む場合、Opus 4.7が明らかに優位です。

📖 原文を読む： r/LocalLLaMA

Kimi K2.6 対 Claude Opus 4.7：Minetest Mod + Google Sheets連携による実践的コーディング対決

テスト内容

テスト1：ローカルバウンティボード

テスト2：Composio + Google Sheets

主なポイント

👀 See Also

ハッカー・ニュースのAI議論、デモからツール開発へと焦点が移行

Opus 4.6 拡張思考は物理図問題で性能が低下

OpenAIのサム・アルトマンは、Anthropicの国防総省に対する「レッドライン」を支持し、技術的保護措置を提案している。

あなたが知らないうちに、Coworkが別のマシンのChromeインスタンスを使用できる