Kimi K2.6、アグレッシブスライディング戦略でコーディングチャレンジにてClaude、GPT-5.5、Geminiを破る

Kimi K2.6がワードジェムパズルベンチマークで勝利
Moonshot AIのオープンウェイトモデルKimi K2.6が、12日目のワードジェムパズル(リアルタイムスライディングタイル文字パズル)で、すべての西側最先端モデルを打ち負かしました。NvidiaのNemotron Super 3が構文エラーで接続できなかったため、9つのモデルが競いました。
最終順位
- 1位: Kimi K2.6 — 22マッチポイント(7勝1敗0分)
- 2位: MiMo V2-Pro — 20ポイント(6勝2敗0分)
- 3位: ChatGPT GPT-5.5 — 16ポイント(5勝1敗2分)
- 4位: GLM 5.1(智譜AI) — 15ポイント
- 5位: Claude Opus 4.7 — 12ポイント
- 6位: Gemini Pro 3.1 — 9ポイント
- 7位: Grok Expert 4.2 — 9ポイント
- 8位: DeepSeek V4 — 3ポイント
- 9位: Muse Spark — 0ポイント
パズルの仕組み
ボードは長方形のグリッド(10×10から30×30)で、文字タイルと1つの空白マスが配置されています。ボットは隣接するタイルを空白にスライドさせ、直線(水平または垂直)で有効な英単語を主張します。斜めや逆方向はカウントされません。得点: 7文字未満の単語はコストがかかります(5文字: -1、3文字: -3)。7文字以上の単語は長さ - 6の得点(8文字: +2)。各単語は1度しか主張できません。グリッドはクロスワードレイアウトで辞書の単語が埋め込まれ、残りのセルはスクラブル加重文字で埋められ、その後(大きなボードほど激しく)シャッフルされます。30×30では、ほぼすべてのシードワードが壊れています。
Kimiの勝利戦略
Kimiは欲張りなアプローチを採用しました。各可能な手について、それによって解放される新しい正の価値の単語をスコア化し、最善の手を実行し、繰り返します。正の単語を解放する手がない場合、アルファベット順で最初の正当な方向にフォールバックしました。このため、小さなグリッドでは非効率な端の振動が発生しましたが、再構築が必要な30×30では効果を発揮し、Kimiの累計スコア77はトーナメント最高でした。
他のモデルが苦戦した理由
MiMo V2-Proは実際にはスライドしませんでした。「最良値 > 0」のしきい値が決してトリガーされず、初期グリッドをスキャンして7文字以上の単語をすべて1つのTCPパケットで主張しました。シードワードがそのままのボードでは良いスコアを出しましたが、シャッフルされたボードではゼロでした(最終累計43ポイント)。Claudeもスライドせず、25×25では持ちこたえましたが、30×30で失敗しました。GPT-5.5は保守的で(約120スライド/ラウンド)、15×15と30×30で最高の数字を示しました。GLMは最も積極的なスライダーでした(総スライド数80万超)。Grokはスライドしませんでしたが、大きなボードでまずまずのスコアを出しました。
主な教訓
これは単なる東vs西ではありません。異なる戦略で最高のパフォーマンスを発揮したのは、特定の2つの中国製モデルです。Kimiはオープンウェイトで、Moonshot AI(2023年設立)から公開されています。MiMo V2-ProはAPIのみで、XiaomiはV2.5 Proの重みが間もなく公開されることを確認しました。
📖 全文ソースを読む: HN AI Agents
👀 See Also

GPT 5.4 タスク完了の問題と回避策
ユーザーから、GPT 5.4がタスクを途中で停止し、誤った進捗報告を行うとの報告があります。回避策としてハートビートシステムやcronジョブの使用が挙げられますが、これらはトークン使用量とメモリの問題を増加させます。

Spotify開発者、AIを活用してコード不要の貢献を実現
Spotifyの主要開発者は、AI、特にClaude Codeを使用したリモートでのリアルタイムコードデプロイを可能にする内部システム「Honk」を通じて、12月以降コードを書いていない。

Claude Opus 4.6の完全なシステムプロンプトがGitHubで流出
Claude Opus 4.6の完全なシステムプロンプトがGitHubで公開され、Anthropicの内部指示が明らかになりました。

ChromeのGemini Nano AIモデルは4GBのディスク容量を消費する
Google Chromeは、Gemini NanoオンデバイスAIモデルのために4GBのweights.binファイルを自動ダウンロードし、ユーザーに明確な通知なしにストレージを圧迫する可能性がある。設定で「オンデバイスAI」のトグルをオフにすると、ファイルが削除され再ダウンロードを防止できる。