Kimi K2.6 Supera GPT-5.5, Claude e Gemini em Desafio de Codificação

Kimi K2.6 vence benchmark do Word Gem Puzzle

O modelo de pesos abertos Kimi K2.6, da Moonshot AI, derrotou todos os modelos ocidentais de ponta no Dia 12 do Word Gem Puzzle, um puzzle de letras em tempo real com peças deslizantes. Nove modelos competiram depois que o Nemotron Super 3, da Nvidia, não conseguiu se conectar devido a um erro de sintaxe.

Classificação Final

1º: Kimi K2.6 — 22 pontos de partida (7-1-0)
2º: MiMo V2-Pro — 20 pontos (6-2-0)
3º: ChatGPT GPT-5.5 — 16 pontos (5-1-2)
4º: GLM 5.1 (Zhipu AI) — 15 pontos
5º: Claude Opus 4.7 — 12 pontos
6º: Gemini Pro 3.1 — 9 pontos
7º: Grok Expert 4.2 — 9 pontos
8º: DeepSeek V4 — 3 pontos
9º: Muse Spark — 0 pontos

Como funciona o puzzle

O tabuleiro é uma grade retangular (10×10 a 30×30) preenchida com peças de letras e um espaço em branco. Os bots deslizam peças adjacentes para o espaço vazio e formam palavras válidas em inglês em linhas retas horizontais ou verticais. Diagonais e palavras ao contrário não contam. Pontuação: palavras com menos de 7 letras custam pontos (5 letras: -1, 3 letras: -3). Palavras com 7 ou mais letras pontuam comprimento - 6 (8 letras: +2). Cada palavra só pode ser formada uma vez. As grades são semeadas com palavras do dicionário em formato de palavras cruzadas, as células restantes preenchidas com letras ponderadas do Scrabble e, em seguida, embaralhadas (mais agressivamente em tabuleiros maiores). Em 30×30, quase todas as palavras originais são quebradas.

Estratégia vencedora do Kimi

O Kimi usou uma abordagem gananciosa: avaliar cada movimento possível pelas novas palavras de valor positivo que ele desbloqueia, executar o melhor, repetir. Quando nenhum movimento desbloqueava uma palavra positiva, ele recorria à primeira direção legal em ordem alfabética. Isso causou oscilação ineficiente nas bordas em grades pequenas, mas compensou em 30×30, onde a reconstrução era necessária — a pontuação cumulativa de 77 do Kimi foi a mais alta do torneio.

Por que outros modelos tiveram dificuldades

O MiMo V2-Pro nunca deslizou de fato — seu limite de "melhor valor > 0" nunca foi acionado, então ele escaneou a grade inicial em busca de palavras com 7 ou mais letras e reivindicou todas em um único pacote TCP. Ele foi bem em tabuleiros com palavras originais intactas, mas zero em embaralhados (final: 43 pontos cumulativos). O Claude também não deslizou, indo bem em 25×25, mas falhando em 30×30. O GPT-5.5 foi conservador (~120 deslizes/rodada) e mostrou seus melhores números em 15×15 e 30×30. O GLM foi o deslizador mais agressivo no geral (>800.000 deslizes no total). O Grok nunca deslizou, mas foi bem em tabuleiros maiores.

Principal conclusão

Isso não é simplesmente Leste vs. Oeste — são dois modelos chineses específicos que tiveram melhor desempenho com estratégias muito diferentes. O Kimi tem pesos abertos e está disponível publicamente pela Moonshot AI (fundada em 2023). O MiMo V2-Pro é apenas via API; a Xiaomi confirmou que os pesos do V2.5 Pro serão lançados em breve.

📖 Leia a fonte original: HN AI Agents

Kimi K2.6 supera Claude, GPT-5.5 e Gemini em desafio de codificação com estratégia agressiva de deslizamento

Kimi K2.6 vence benchmark do Word Gem Puzzle

Classificação Final

Como funciona o puzzle

Estratégia vencedora do Kimi

Por que outros modelos tiveram dificuldades

Principal conclusão

👀 See Also

Meta OpenEnv AI Hackathon na Índia Oferece Entrevistas Diretas e Prêmio de US$ 30 Mil

Lacuna na Governança do Comportamento de Agentes de IA Exposta pelo Incidente do Email de Summer Yue

Estudo Mostra Viés Cultural em LLM em Resposta a Prompt Simples de Saúde

Vendas de Placas-Mãe Caem Mais de 25% Enquanto Produção de Chips de IA Exclui Componentes de PCs de Consumo