Kimi K2.6 Bat Claude et GPT-5.5 au Codage : Stratégie Agressive

Kimi K2.6 remporte le benchmark Word Gem Puzzle

Le modèle open-weights Kimi K2.6 de Moonshot AI a battu tous les modèles frontaliers occidentaux lors du Word Gem Puzzle du jour 12, un puzzle de lettres en temps réel avec des tuiles coulissantes. Neuf modèles ont concouru après que le Nemotron Super 3 de Nvidia n'ait pas réussi à se connecter en raison d'une erreur de syntaxe.

Classement final

1er : Kimi K2.6 — 22 points de match (7-1-0)
2e : MiMo V2-Pro — 20 points (6-2-0)
3e : ChatGPT GPT-5.5 — 16 points (5-1-2)
4e : GLM 5.1 (Zhipu AI) — 15 points
5e : Claude Opus 4.7 — 12 points
6e : Gemini Pro 3.1 — 9 points
7e : Grok Expert 4.2 — 9 points
8e : DeepSeek V4 — 3 points
9e : Muse Spark — 0 points

Comment fonctionne le puzzle

Le plateau est une grille rectangulaire (10×10 à 30×30) remplie de tuiles de lettres et d'un espace vide. Les robots glissent les tuiles adjacentes dans l'espace vide et revendiquent des mots anglais valides en lignes droites horizontales ou verticales. Les diagonales et les sens inverses ne comptent pas. Score : les mots de moins de 7 lettres coûtent des points (5 lettres : -1, 3 lettres : -3). Les mots de 7 lettres et plus rapportent longueur - 6 (8 lettres : +2). Chaque mot ne peut être revendiqué qu'une fois. Les grilles sont initialisées avec des mots du dictionnaire disposés en mots croisés, les cellules restantes remplies de lettres pondérées par le Scrabble, puis mélangées (plus agressivement sur les grands plateaux). Sur un 30×30, presque tous les mots de départ sont brisés.

Stratégie gagnante de Kimi

Kimi a utilisé une approche gourmande : noter chaque mouvement possible en fonction des nouveaux mots à valeur positive qu'il déverrouille, exécuter le meilleur, répéter. Lorsqu'aucun mouvement ne déverrouillait un mot positif, il se rabattait sur la première direction légale par ordre alphabétique. Cela a causé des oscillations inefficaces sur les petites grilles, mais a payé sur 30×30 où une reconstruction était nécessaire — le score cumulé de Kimi de 77 était le plus élevé du tournoi.

Pourquoi les autres modèles ont eu du mal

MiMo V2-Pro n'a jamais réellement glissé — son seuil "meilleure valeur > 0" ne s'est jamais déclenché, il a donc scanné la grille initiale pour les mots de 7 lettres et plus et les a tous revendiqués en un seul paquet TCP. Il a bien marqué sur les plateaux avec des mots intacts mais zéro sur les plateaux mélangés (score final : 43 points cumulés). Claude n'a pas non plus glissé, tenant bon sur 25×25 mais échouant sur 30×30. GPT-5.5 était conservateur (~120 glissements/tour) et a montré ses meilleurs chiffres sur 15×15 et 30×30. GLM a été le glisseur le plus agressif (>800 000 glissements au total). Grok n'a jamais glissé mais a bien marqué sur les grands plateaux.

Point clé

Il ne s'agit pas simplement d'un conflit Est contre Ouest : ce sont deux modèles chinois spécifiques qui ont le mieux performé avec des stratégies très différentes. Kimi est open-weights et publiquement disponible chez Moonshot AI (fondée en 2023). MiMo V2-Pro est uniquement accessible via API ; Xiaomi a confirmé que les poids de V2.5 Pro seront bientôt disponibles.

📖 Lire la source complète : HN AI Agents

Kimi K2.6 bat Claude, GPT-5.5 et Gemini dans un défi de codage avec une stratégie de glissement agressive

Kimi K2.6 remporte le benchmark Word Gem Puzzle

Classement final

Comment fonctionne le puzzle

Stratégie gagnante de Kimi

Pourquoi les autres modèles ont eu du mal

Point clé

👀 See Also

Utilisateur de Reddit rapporte 18,8 tok/s en inférence CPU avec Qwen 3 30B Q4 sur Zen 4

Bench du cache KV Qwen 3.6-35B-A3B : f16 vs q8_0 vs Turbo3 vs Turbo4 sur M5 Max jusqu'à 1M de contexte

Campagne anti-IA de Polaroid : combattre la fatigue numérique avec des publicités imprimées analogiques

Nouvelle version d'OpenClaw : Simple changement de nom ou mise à niveau majeure ?