Kimi K2.6 bat Claude, GPT-5.5 et Gemini dans un défi de codage avec une stratégie de glissement agressive

Kimi K2.6 remporte le benchmark Word Gem Puzzle
Le modèle open-weights Kimi K2.6 de Moonshot AI a battu tous les modèles frontaliers occidentaux lors du Word Gem Puzzle du jour 12, un puzzle de lettres en temps réel avec des tuiles coulissantes. Neuf modèles ont concouru après que le Nemotron Super 3 de Nvidia n'ait pas réussi à se connecter en raison d'une erreur de syntaxe.
Classement final
- 1er : Kimi K2.6 — 22 points de match (7-1-0)
- 2e : MiMo V2-Pro — 20 points (6-2-0)
- 3e : ChatGPT GPT-5.5 — 16 points (5-1-2)
- 4e : GLM 5.1 (Zhipu AI) — 15 points
- 5e : Claude Opus 4.7 — 12 points
- 6e : Gemini Pro 3.1 — 9 points
- 7e : Grok Expert 4.2 — 9 points
- 8e : DeepSeek V4 — 3 points
- 9e : Muse Spark — 0 points
Comment fonctionne le puzzle
Le plateau est une grille rectangulaire (10×10 à 30×30) remplie de tuiles de lettres et d'un espace vide. Les robots glissent les tuiles adjacentes dans l'espace vide et revendiquent des mots anglais valides en lignes droites horizontales ou verticales. Les diagonales et les sens inverses ne comptent pas. Score : les mots de moins de 7 lettres coûtent des points (5 lettres : -1, 3 lettres : -3). Les mots de 7 lettres et plus rapportent longueur - 6 (8 lettres : +2). Chaque mot ne peut être revendiqué qu'une fois. Les grilles sont initialisées avec des mots du dictionnaire disposés en mots croisés, les cellules restantes remplies de lettres pondérées par le Scrabble, puis mélangées (plus agressivement sur les grands plateaux). Sur un 30×30, presque tous les mots de départ sont brisés.
Stratégie gagnante de Kimi
Kimi a utilisé une approche gourmande : noter chaque mouvement possible en fonction des nouveaux mots à valeur positive qu'il déverrouille, exécuter le meilleur, répéter. Lorsqu'aucun mouvement ne déverrouillait un mot positif, il se rabattait sur la première direction légale par ordre alphabétique. Cela a causé des oscillations inefficaces sur les petites grilles, mais a payé sur 30×30 où une reconstruction était nécessaire — le score cumulé de Kimi de 77 était le plus élevé du tournoi.
Pourquoi les autres modèles ont eu du mal
MiMo V2-Pro n'a jamais réellement glissé — son seuil "meilleure valeur > 0" ne s'est jamais déclenché, il a donc scanné la grille initiale pour les mots de 7 lettres et plus et les a tous revendiqués en un seul paquet TCP. Il a bien marqué sur les plateaux avec des mots intacts mais zéro sur les plateaux mélangés (score final : 43 points cumulés). Claude n'a pas non plus glissé, tenant bon sur 25×25 mais échouant sur 30×30. GPT-5.5 était conservateur (~120 glissements/tour) et a montré ses meilleurs chiffres sur 15×15 et 30×30. GLM a été le glisseur le plus agressif (>800 000 glissements au total). Grok n'a jamais glissé mais a bien marqué sur les grands plateaux.
Point clé
Il ne s'agit pas simplement d'un conflit Est contre Ouest : ce sont deux modèles chinois spécifiques qui ont le mieux performé avec des stratégies très différentes. Kimi est open-weights et publiquement disponible chez Moonshot AI (fondée en 2023). MiMo V2-Pro est uniquement accessible via API ; Xiaomi a confirmé que les poids de V2.5 Pro seront bientôt disponibles.
📖 Lire la source complète : HN AI Agents
👀 See Also

L'IA me rend idiot : confession d'un développeur sur l'atrophie de ses compétences
James Pain avoue qu'après un an ou deux à utiliser exclusivement l'IA pour coder (sans écrire de code à la main), il a en grande partie oublié comment coder. Il se réapprend maintenant à coder à la main et prévient qu'une utilisation intensive de l'IA peut éroder les compétences rédactionnelles et de codage.

Les fondateurs de Codestrap critiquent les métriques de codage par IA et mettent en garde contre des problèmes de qualité.
Les fondateurs de Codestrap soutiennent que les outils de codage IA sont mal évalués avec des métriques comme le nombre de lignes de code et les demandes de fusion, tandis que les métriques de qualité révèlent des problèmes, comme une base de code 3,7 fois plus grande qui fonctionne 2 000 fois moins bien dans une réécriture de SQLite en Rust.

Traduction en français : Résumé hebdomadaire de l'IA multimodale : Holotron-12B, Nemotron Omni, GlyphPrinter, et plus encore
Les points forts de l'IA multimodale de cette semaine incluent Holotron-12B pour les tâches d'utilisation informatique, les modèles Nemotron Omni de NVIDIA intégrant langage+vision+voix, GlyphPrinter pour un rendu précis du texte dans la génération d'images, et plusieurs projets open source pour l'amélioration vidéo, la segmentation 3D et les systèmes multi-agents.

Agent SDK contre Claude CLI : le point de vue d'un utilisateur sur la différence pratique
Un utilisateur de Reddit s'interroge sur la différence pratique entre le nouveau SDK Agent pour Claude et l'utilisation de Claude CLI pour connecter Opus 4.7 localement.