Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en codificación

Kimi K2.6 gana el benchmark Word Gem Puzzle

El Kimi K2.6 de pesos abiertos de Moonshot AI superó a todos los modelos fronterizos occidentales en el Day 12 Word Gem Puzzle, un puzzle de letras con fichas deslizantes en tiempo real. Nueve modelos compitieron después de que Nemotron Super 3 de Nvidia no pudiera conectarse debido a un error de sintaxis.

Clasificación final

1º: Kimi K2.6 — 22 puntos de partido (7-1-0)
2º: MiMo V2-Pro — 20 puntos (6-2-0)
3º: ChatGPT GPT-5.5 — 16 puntos (5-1-2)
4º: GLM 5.1 (Zhipu AI) — 15 puntos
5º: Claude Opus 4.7 — 12 puntos
6º: Gemini Pro 3.1 — 9 puntos
7º: Grok Expert 4.2 — 9 puntos
8º: DeepSeek V4 — 3 puntos
9º: Muse Spark — 0 puntos

Cómo funciona el puzzle

El tablero es una cuadrícula rectangular (de 10×10 a 30×30) llena de fichas con letras y un espacio en blanco. Los bots deslizan fichas adyacentes hacia el espacio en blanco y reclaman palabras válidas en inglés en líneas rectas horizontales o verticales. Las diagonales y las inversas no cuentan. Puntuación: las palabras de menos de 7 letras cuestan puntos (5 letras: -1, 3 letras: -3). Las palabras de 7 o más letras puntúan longitud - 6 (8 letras: +2). Cada palabra solo se puede reclamar una vez. Las cuadrículas se siembran con palabras del diccionario en un diseño de crucigrama, las celdas restantes se llenan con letras ponderadas de Scrabble, y luego se mezclan (más agresivamente en tableros grandes). En 30×30, casi todas las palabras semilla se rompen.

Estrategia ganadora de Kimi

Kimi usó un enfoque voraz: puntuar cada movimiento posible por las nuevas palabras de valor positivo que desbloquea, ejecutar el mejor, repetir. Cuando ningún movimiento desbloqueaba una palabra positiva, recurría a la primera dirección legal alfabéticamente. Esto causó una oscilación ineficiente en los bordes en cuadrículas pequeñas, pero dio frutos en 30×30 donde se necesitaba reconstrucción: la puntuación acumulada de Kimi de 77 fue la más alta del torneo.

Por qué otros modelos tuvieron dificultades

MiMo V2-Pro nunca se deslizó realmente: su umbral de "mejor valor > 0" nunca se activó, por lo que escaneó la cuadrícula inicial en busca de palabras de 7 o más letras y las reclamó todas en un solo paquete TCP. Puntuó bien en tableros con palabras semilla intactas pero cero en los mezclados (final: 43 puntos acumulados). Claude tampoco se deslizó, manteniéndose en 25×25 pero fallando en 30×30. GPT-5.5 fue conservador (~120 deslizamientos/ronda) y mostró sus mejores números en 15×15 y 30×30. GLM fue el deslizador más agresivo en general (>800,000 deslizamientos totales). Grok nunca se deslizó pero puntuó decentemente en tableros grandes.

Conclusión clave

Esto no es simplemente Este vs. Oeste: son dos modelos chinos específicos los que rindieron mejor con estrategias muy diferentes. Kimi es de pesos abiertos y está disponible públicamente de Moonshot AI (fundada en 2023). MiMo V2-Pro es solo API; Xiaomi confirmó que los pesos de V2.5 Pro se publicarán pronto.

📖 Leer la fuente completa: HN AI Agents

Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo

Kimi K2.6 gana el benchmark Word Gem Puzzle

Clasificación final

Cómo funciona el puzzle

Estrategia ganadora de Kimi

Por qué otros modelos tuvieron dificultades

Conclusión clave

👀 Ver también

SDL Prohíbe Commits Escritos por IA en Respuesta a un Problema de GitHub

Modelos locales Qwen 3.6 vs modelos fronterizos en una primitiva de codificación: animación de Canvas HTML en un solo archivo

Enseñando a Claude el Porqué: El Enfoque de Anthropic para Eliminar la Desalineación de la Agencia

Anthropic lanza la Red de Socios Claude con una inversión de 100 millones de dólares.