Kimi K2.6 対 Claude Opus 4.7:Minetest Mod + Google Sheets連携による実践的コーディング対決

テスト内容
開発者がKimi K2.6とClaude Opus 4.7を、2部構成のコーディングタスク(Minetest/LuantiのバウンティボードゲームMODをTypeScriptバックエンドで構築し、その後Composio経由のGoogle Sheetsログ機能で拡張)で比較しました。両モデルに同一のプロンプトを与え、動作結果、コード品質、デバッグの手間、時間、トークン使用量、コストを評価しました。
セットアップ: Claude Opus 4.7はClaude Code経由、Kimi K2.6はOpenRouter上のOpenCode経由。同じリポジトリ、同じ合格条件。
テスト1:ローカルバウンティボード
Claude Opus 4.7はExpress/Zod/Vitestのバックエンド、Lua MOD、/bountyフロー、報酬、リーダーボードを合格するテスト付きで構築しました。
- コスト:約$3.59
- 時間:API 12分、実時間23分
- コード:+1,688 / -0
- 出力トークン:54.8k
- キャッシュ読み込み:2.8Mトークン
Kimi K2.6もローカルバウンティボードを動作させました(バックエンドルート、Lua MOD、基本的なゲームフロー)が、コードはより乱雑でした。グローバル設定にsecure.http_mods = bountykimiと記述した一方、異なるMOD名を持つワールドレベルの設定も作成したため、実際に動作するMODに対してHTTP APIが有効になりませんでした。デバッグには30分以上かかりました。
- コスト:約$0.39
- 時間:約9分27秒
- コード変更:+4,671 / -0(Opusの2.7倍)
- 使用コンテキスト:52,073トークン
- コンテキストウィンドウ使用率:20%
判定:両者ともテスト1に合格しましたが、Opusの出力はよりクリーンで小規模でした。
テスト2:Composio + Google Sheets
Claude Opus 4.7は、tsx watchと環境変数ロードに関する試行錯誤の後、Google Sheets同期を動作させました。バックエンドはバウンティを完了し、Composio経由でGoogle Sheetsに追加できました。
- コスト:$16.03(痛い)
- 時間:API 28分、実時間1時間17分
- コード:+1,848 / -507
- キャッシュ読み込み:22.3Mトークン
- 出力トークン:123.3k
Kimi K2.6は失敗しました。開発サーバーの問題、テスト、ビルドの問題で行き詰まり、Composio統合を正常に動作させられませんでした。約25分、135k+トークン消費後、テストは中止されました。
- コスト:約$5.03
- 時間:約25分
- トークン:135k+
主なポイント
- 最良のローカルMVP:Opus(よりクリーン)だが、Kimiのコストパフォーマンスははるかに優れている。
- 最良の実際の統合:Opusが大差で勝利。
- クリーンなコード:Opus(同じタスクで1.7k行 vs 4.7k行)。
- 最も安い実験モデル:Kimi K2.6。
- 最も痛いコスト:Opus(Google Sheets同期に$16)。
Kimi K2.6は安価なローカルコーディングタスクにおいて興味深い存在です。動作するLua + TypeScript MODを$0.39で作成できるのは印象的です。しかし、外部ツールや設定の問題、実際の統合が絡む場合、Opus 4.7が明らかに優位です。
📖 原文を読む: r/LocalLLaMA
👀 See Also

Claude Codeは、自動化されたワークフローのためのスケジュールタスク実行機能を追加します。
AnthropicはClaude Codeにスケジュール実行機能を追加し、開発者が一度設定したタスクを手動での指示なしに自動実行できるようにしました。この機能は、日次のコミットレビュー、依存関係の監査、エラーログのスキャン、PRレビューなどをサポートしています。
Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る
GraphQL-go-toolsリポジトリの29タスクにおいて、Claude Code内のOpus 4.7は中程度の推論努力で最高のパフォーマンスを発揮しました。それ以上の設定では、パッチ品質を向上させることなく正解率が低下し、コストが増加しました。

OpenClawスキルに代わる自動化ツールとしてのn8nの探求
RedditのOpenClawコミュニティでは、自動化タスクにおけるn8nとOpenClaw Skillsの使用に関する利点と欠点について議論されています。主な議論のポイントには、使いやすさ、柔軟性、実世界での応用例が含まれます。

クロードに理由を教える:アンソロピックのエージェント的ミスアラインメント排除への取り組み
Anthropicは、Claudeモデルにおいて、単なるデモンストレーションではなく理由と原則に基づく訓練を行うことで、エージェント的なミスアライメント(例えば恐喝)を大幅に削減し、Claude Haiku 4.5以降は完全なスコアを達成しました。