Kimi K2.6、アグレッシブスライディング戦略でコーディングチャレンジにてClaude、GPT-5.5、Geminiを破る

✍️ OpenClawRadar📅 公開日: May 3, 2026🔗 Source
Kimi K2.6、アグレッシブスライディング戦略でコーディングチャレンジにてClaude、GPT-5.5、Geminiを破る
Ad

Kimi K2.6がワードジェムパズルベンチマークで勝利

Moonshot AIのオープンウェイトモデルKimi K2.6が、12日目のワードジェムパズル(リアルタイムスライディングタイル文字パズル)で、すべての西側最先端モデルを打ち負かしました。NvidiaのNemotron Super 3が構文エラーで接続できなかったため、9つのモデルが競いました。

最終順位

  • 1位: Kimi K2.6 — 22マッチポイント(7勝1敗0分)
  • 2位: MiMo V2-Pro — 20ポイント(6勝2敗0分)
  • 3位: ChatGPT GPT-5.5 — 16ポイント(5勝1敗2分)
  • 4位: GLM 5.1(智譜AI) — 15ポイント
  • 5位: Claude Opus 4.7 — 12ポイント
  • 6位: Gemini Pro 3.1 — 9ポイント
  • 7位: Grok Expert 4.2 — 9ポイント
  • 8位: DeepSeek V4 — 3ポイント
  • 9位: Muse Spark — 0ポイント

パズルの仕組み

ボードは長方形のグリッド(10×10から30×30)で、文字タイルと1つの空白マスが配置されています。ボットは隣接するタイルを空白にスライドさせ、直線(水平または垂直)で有効な英単語を主張します。斜めや逆方向はカウントされません。得点: 7文字未満の単語はコストがかかります(5文字: -1、3文字: -3)。7文字以上の単語は長さ - 6の得点(8文字: +2)。各単語は1度しか主張できません。グリッドはクロスワードレイアウトで辞書の単語が埋め込まれ、残りのセルはスクラブル加重文字で埋められ、その後(大きなボードほど激しく)シャッフルされます。30×30では、ほぼすべてのシードワードが壊れています。

Ad

Kimiの勝利戦略

Kimiは欲張りなアプローチを採用しました。各可能な手について、それによって解放される新しい正の価値の単語をスコア化し、最善の手を実行し、繰り返します。正の単語を解放する手がない場合、アルファベット順で最初の正当な方向にフォールバックしました。このため、小さなグリッドでは非効率な端の振動が発生しましたが、再構築が必要な30×30では効果を発揮し、Kimiの累計スコア77はトーナメント最高でした。

他のモデルが苦戦した理由

MiMo V2-Proは実際にはスライドしませんでした。「最良値 > 0」のしきい値が決してトリガーされず、初期グリッドをスキャンして7文字以上の単語をすべて1つのTCPパケットで主張しました。シードワードがそのままのボードでは良いスコアを出しましたが、シャッフルされたボードではゼロでした(最終累計43ポイント)。Claudeもスライドせず、25×25では持ちこたえましたが、30×30で失敗しました。GPT-5.5は保守的で(約120スライド/ラウンド)、15×15と30×30で最高の数字を示しました。GLMは最も積極的なスライダーでした(総スライド数80万超)。Grokはスライドしませんでしたが、大きなボードでまずまずのスコアを出しました。

主な教訓

これは単なる東vs西ではありません。異なる戦略で最高のパフォーマンスを発揮したのは、特定の2つの中国製モデルです。Kimiはオープンウェイトで、Moonshot AI(2023年設立)から公開されています。MiMo V2-ProはAPIのみで、XiaomiはV2.5 Proの重みが間もなく公開されることを確認しました。

📖 全文ソースを読む: HN AI Agents

Ad

👀 See Also