Kimi K2.6がコーディングチャレンジでClaude、GPT-5.5、Geminiを破る

Kimi K2.6がワードジェムパズルベンチマークで勝利

Moonshot AIのオープンウェイトモデルKimi K2.6が、12日目のワードジェムパズル（リアルタイムスライディングタイル文字パズル）で、すべての西側最先端モデルを打ち負かしました。NvidiaのNemotron Super 3が構文エラーで接続できなかったため、9つのモデルが競いました。

最終順位

1位: Kimi K2.6 — 22マッチポイント（7勝1敗0分）
2位: MiMo V2-Pro — 20ポイント（6勝2敗0分）
3位: ChatGPT GPT-5.5 — 16ポイント（5勝1敗2分）
4位: GLM 5.1（智譜AI） — 15ポイント
5位: Claude Opus 4.7 — 12ポイント
6位: Gemini Pro 3.1 — 9ポイント
7位: Grok Expert 4.2 — 9ポイント
8位: DeepSeek V4 — 3ポイント
9位: Muse Spark — 0ポイント

パズルの仕組み

ボードは長方形のグリッド（10×10から30×30）で、文字タイルと1つの空白マスが配置されています。ボットは隣接するタイルを空白にスライドさせ、直線（水平または垂直）で有効な英単語を主張します。斜めや逆方向はカウントされません。得点: 7文字未満の単語はコストがかかります（5文字: -1、3文字: -3）。7文字以上の単語は長さ - 6の得点（8文字: +2）。各単語は1度しか主張できません。グリッドはクロスワードレイアウトで辞書の単語が埋め込まれ、残りのセルはスクラブル加重文字で埋められ、その後（大きなボードほど激しく）シャッフルされます。30×30では、ほぼすべてのシードワードが壊れています。

Kimiの勝利戦略

Kimiは欲張りなアプローチを採用しました。各可能な手について、それによって解放される新しい正の価値の単語をスコア化し、最善の手を実行し、繰り返します。正の単語を解放する手がない場合、アルファベット順で最初の正当な方向にフォールバックしました。このため、小さなグリッドでは非効率な端の振動が発生しましたが、再構築が必要な30×30では効果を発揮し、Kimiの累計スコア77はトーナメント最高でした。

他のモデルが苦戦した理由

MiMo V2-Proは実際にはスライドしませんでした。「最良値 > 0」のしきい値が決してトリガーされず、初期グリッドをスキャンして7文字以上の単語をすべて1つのTCPパケットで主張しました。シードワードがそのままのボードでは良いスコアを出しましたが、シャッフルされたボードではゼロでした（最終累計43ポイント）。Claudeもスライドせず、25×25では持ちこたえましたが、30×30で失敗しました。GPT-5.5は保守的で（約120スライド/ラウンド）、15×15と30×30で最高の数字を示しました。GLMは最も積極的なスライダーでした（総スライド数80万超）。Grokはスライドしませんでしたが、大きなボードでまずまずのスコアを出しました。

主な教訓

これは単なる東vs西ではありません。異なる戦略で最高のパフォーマンスを発揮したのは、特定の2つの中国製モデルです。Kimiはオープンウェイトで、Moonshot AI（2023年設立）から公開されています。MiMo V2-ProはAPIのみで、XiaomiはV2.5 Proの重みが間もなく公開されることを確認しました。

📖 全文ソースを読む: HN AI Agents