Kimi K2.6 supera Claude, GPT-5.5 e Gemini em desafio de codificação com estratégia agressiva de deslizamento

Kimi K2.6 vence benchmark do Word Gem Puzzle
O modelo de pesos abertos Kimi K2.6, da Moonshot AI, derrotou todos os modelos ocidentais de ponta no Dia 12 do Word Gem Puzzle, um puzzle de letras em tempo real com peças deslizantes. Nove modelos competiram depois que o Nemotron Super 3, da Nvidia, não conseguiu se conectar devido a um erro de sintaxe.
Classificação Final
- 1º: Kimi K2.6 — 22 pontos de partida (7-1-0)
- 2º: MiMo V2-Pro — 20 pontos (6-2-0)
- 3º: ChatGPT GPT-5.5 — 16 pontos (5-1-2)
- 4º: GLM 5.1 (Zhipu AI) — 15 pontos
- 5º: Claude Opus 4.7 — 12 pontos
- 6º: Gemini Pro 3.1 — 9 pontos
- 7º: Grok Expert 4.2 — 9 pontos
- 8º: DeepSeek V4 — 3 pontos
- 9º: Muse Spark — 0 pontos
Como funciona o puzzle
O tabuleiro é uma grade retangular (10×10 a 30×30) preenchida com peças de letras e um espaço em branco. Os bots deslizam peças adjacentes para o espaço vazio e formam palavras válidas em inglês em linhas retas horizontais ou verticais. Diagonais e palavras ao contrário não contam. Pontuação: palavras com menos de 7 letras custam pontos (5 letras: -1, 3 letras: -3). Palavras com 7 ou mais letras pontuam comprimento - 6 (8 letras: +2). Cada palavra só pode ser formada uma vez. As grades são semeadas com palavras do dicionário em formato de palavras cruzadas, as células restantes preenchidas com letras ponderadas do Scrabble e, em seguida, embaralhadas (mais agressivamente em tabuleiros maiores). Em 30×30, quase todas as palavras originais são quebradas.
Estratégia vencedora do Kimi
O Kimi usou uma abordagem gananciosa: avaliar cada movimento possível pelas novas palavras de valor positivo que ele desbloqueia, executar o melhor, repetir. Quando nenhum movimento desbloqueava uma palavra positiva, ele recorria à primeira direção legal em ordem alfabética. Isso causou oscilação ineficiente nas bordas em grades pequenas, mas compensou em 30×30, onde a reconstrução era necessária — a pontuação cumulativa de 77 do Kimi foi a mais alta do torneio.
Por que outros modelos tiveram dificuldades
O MiMo V2-Pro nunca deslizou de fato — seu limite de "melhor valor > 0" nunca foi acionado, então ele escaneou a grade inicial em busca de palavras com 7 ou mais letras e reivindicou todas em um único pacote TCP. Ele foi bem em tabuleiros com palavras originais intactas, mas zero em embaralhados (final: 43 pontos cumulativos). O Claude também não deslizou, indo bem em 25×25, mas falhando em 30×30. O GPT-5.5 foi conservador (~120 deslizes/rodada) e mostrou seus melhores números em 15×15 e 30×30. O GLM foi o deslizador mais agressivo no geral (>800.000 deslizes no total). O Grok nunca deslizou, mas foi bem em tabuleiros maiores.
Principal conclusão
Isso não é simplesmente Leste vs. Oeste — são dois modelos chineses específicos que tiveram melhor desempenho com estratégias muito diferentes. O Kimi tem pesos abertos e está disponível publicamente pela Moonshot AI (fundada em 2023). O MiMo V2-Pro é apenas via API; a Xiaomi confirmou que os pesos do V2.5 Pro serão lançados em breve.
📖 Leia a fonte original: HN AI Agents
👀 See Also

Conta do Google Suspensa Após Tentativa de Integração do OpenClaw
A conta do Google de um desenvolvedor foi suspensa em menos de 48 horas após configurar o acesso à API para integração com o OpenClaw, sendo sinalizada como atividade de bot apesar de ter sido criada manualmente.

Claude Code v2.1.139 adiciona Visualização do Agente, Comando /goal e Grandes Melhorias no MCP
Claude Code v2.1.139 introduz uma nova visão de agente para gerenciamento de sessões, um comando /goal para tarefas de múltiplas etapas, capacidades de hook expandidas e correções para problemas de memória do servidor MCP e corrupção de terminal.

Utilizador do Reddit explora por que a IA ainda não consegue pesquisar imagens de satélite para encontrar aeronaves desaparecidas como o MH370
Um usuário do Reddit pediu à Claude AI para pesquisar bancos de dados de satélite e sonar para localizar aeronaves desaparecidas como o MH370 e o avião de Amelia Earhart. A Claude respondeu que não tem conexões com esses bancos de dados e ferramentas de visão computacional para escaneamento de imagens em larga escala, embora o usuário observe que os componentes tecnológicos necessários já existem separadamente.

Uso de água em centros de dados de IA na Califórnia: Estimativas a partir de modelos físicos e de IA
Uma análise da California WaterBlog usando física e quatro modelos de IA estima o uso de água por data centers de IA na Califórnia em 2.300–400.000 acre-pés/ano, com uma faixa realista de 32.000–290.000 acre-pés/ano — modesta em comparação com a agricultura.