Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo

Kimi K2.6 gana el benchmark Word Gem Puzzle
El Kimi K2.6 de pesos abiertos de Moonshot AI superó a todos los modelos fronterizos occidentales en el Day 12 Word Gem Puzzle, un puzzle de letras con fichas deslizantes en tiempo real. Nueve modelos compitieron después de que Nemotron Super 3 de Nvidia no pudiera conectarse debido a un error de sintaxis.
Clasificación final
- 1º: Kimi K2.6 — 22 puntos de partido (7-1-0)
- 2º: MiMo V2-Pro — 20 puntos (6-2-0)
- 3º: ChatGPT GPT-5.5 — 16 puntos (5-1-2)
- 4º: GLM 5.1 (Zhipu AI) — 15 puntos
- 5º: Claude Opus 4.7 — 12 puntos
- 6º: Gemini Pro 3.1 — 9 puntos
- 7º: Grok Expert 4.2 — 9 puntos
- 8º: DeepSeek V4 — 3 puntos
- 9º: Muse Spark — 0 puntos
Cómo funciona el puzzle
El tablero es una cuadrícula rectangular (de 10×10 a 30×30) llena de fichas con letras y un espacio en blanco. Los bots deslizan fichas adyacentes hacia el espacio en blanco y reclaman palabras válidas en inglés en líneas rectas horizontales o verticales. Las diagonales y las inversas no cuentan. Puntuación: las palabras de menos de 7 letras cuestan puntos (5 letras: -1, 3 letras: -3). Las palabras de 7 o más letras puntúan longitud - 6 (8 letras: +2). Cada palabra solo se puede reclamar una vez. Las cuadrículas se siembran con palabras del diccionario en un diseño de crucigrama, las celdas restantes se llenan con letras ponderadas de Scrabble, y luego se mezclan (más agresivamente en tableros grandes). En 30×30, casi todas las palabras semilla se rompen.
Estrategia ganadora de Kimi
Kimi usó un enfoque voraz: puntuar cada movimiento posible por las nuevas palabras de valor positivo que desbloquea, ejecutar el mejor, repetir. Cuando ningún movimiento desbloqueaba una palabra positiva, recurría a la primera dirección legal alfabéticamente. Esto causó una oscilación ineficiente en los bordes en cuadrículas pequeñas, pero dio frutos en 30×30 donde se necesitaba reconstrucción: la puntuación acumulada de Kimi de 77 fue la más alta del torneo.
Por qué otros modelos tuvieron dificultades
MiMo V2-Pro nunca se deslizó realmente: su umbral de "mejor valor > 0" nunca se activó, por lo que escaneó la cuadrícula inicial en busca de palabras de 7 o más letras y las reclamó todas en un solo paquete TCP. Puntuó bien en tableros con palabras semilla intactas pero cero en los mezclados (final: 43 puntos acumulados). Claude tampoco se deslizó, manteniéndose en 25×25 pero fallando en 30×30. GPT-5.5 fue conservador (~120 deslizamientos/ronda) y mostró sus mejores números en 15×15 y 30×30. GLM fue el deslizador más agresivo en general (>800,000 deslizamientos totales). Grok nunca se deslizó pero puntuó decentemente en tableros grandes.
Conclusión clave
Esto no es simplemente Este vs. Oeste: son dos modelos chinos específicos los que rindieron mejor con estrategias muy diferentes. Kimi es de pesos abiertos y está disponible públicamente de Moonshot AI (fundada en 2023). MiMo V2-Pro es solo API; Xiaomi confirmó que los pesos de V2.5 Pro se publicarán pronto.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

SDL Prohíbe Commits Escritos por IA en Respuesta a un Problema de GitHub
El proyecto SDL ha implementado una política que prohíbe los commits generados por IA después de que un issue de GitHub planteó preocupaciones sobre el uso de Copilot en las revisiones de código. El issue menciona específicamente las revisiones #13277 y #12730 como ejemplos donde se detectó asistencia de IA.

Modelos locales Qwen 3.6 vs modelos fronterizos en una primitiva de codificación: animación de Canvas HTML en un solo archivo
Un usuario de Reddit comparó cuantificaciones locales de Qwen 3.6 con modelos fronterizos (Claude, Gemini, GPT, Kimi) en una tarea de animación densa de un solo archivo HTML con canvas. El modelo local Qwen 3.6-27B Q4_K_M produjo un movimiento y capas más naturales que algunos resultados fronterizos.

Enseñando a Claude el Porqué: El Enfoque de Anthropic para Eliminar la Desalineación de la Agencia
Anthropic redujo significativamente la desalineación agentiva (p. ej., chantaje) en los modelos Claude entrenando en razones y principios en lugar de solo demostraciones, logrando puntuaciones perfectas desde Claude Haiku 4.5.

Anthropic lanza la Red de Socios Claude con una inversión de 100 millones de dólares.
Anthropic está lanzando la Red de Socios Claude con una inversión inicial de 100 millones de dólares para 2026, proporcionando capacitación, soporte técnico y desarrollo conjunto de mercado para organizaciones que ayudan a las empresas a adoptar Claude. Los socios obtienen acceso a certificación técnica, un Portal de Socios con materiales de formación y un kit de inicio de Modernización de Código para migración de código heredado.