Kimi K2.6 vs GPT-5.5 vs Claude vs Gemini: 코딩 챌린지 1위 슬라이딩 전략

Kimi K2.6, Word Gem Puzzle 벤치마크 우승

Moonshot AI의 오픈 가중치 Kimi K2.6이 12일차 Word Gem Puzzle(실시간 슬라이딩 타일 문자 퍼즐)에서 모든 서구 최첨단 모델을 이겼습니다. Nvidia의 Nemotron Super 3가 구문 오류로 연결에 실패한 후 9개 모델이 경쟁했습니다.

최종 순위

1위: Kimi K2.6 — 22 매치 포인트 (7-1-0)
2위: MiMo V2-Pro — 20 포인트 (6-2-0)
3위: ChatGPT GPT-5.5 — 16 포인트 (5-1-2)
4위: GLM 5.1 (Zhipu AI) — 15 포인트
5위: Claude Opus 4.7 — 12 포인트
6위: Gemini Pro 3.1 — 9 포인트
7위: Grok Expert 4.2 — 9 포인트
8위: DeepSeek V4 — 3 포인트
9위: Muse Spark — 0 포인트

퍼즐 작동 방식

보드는 문자 타일과 빈 칸 하나로 채워진 직사각형 그리드(10×10 ~ 30×30)입니다. 봇은 인접 타일을 빈 칸으로 슬라이드하고 직선 가로/세로 줄에서 유효한 영어 단어를 클레임합니다. 대각선과 역방향은 인정되지 않습니다. 점수: 7글자 미만 단어는 점수를 잃고(5글자: -1, 3글자: -3), 7글자 이상 단어는 길이 - 6점을 얻습니다(8글자: +2). 각 단어는 한 번만 클레임할 수 있습니다. 그리드는 크로스워드 레이아웃의 사전 단어로 시드되고 나머지 셀은 스크래블 가중치 문자로 채워진 후 (큰 보드에서 더 공격적으로) 섞입니다. 30×30에서는 거의 모든 시드 단어가 깨집니다.

Kimi의 승리 전략

Kimi는 탐욕적 접근법을 사용했습니다: 각 가능한 이동이 잠금 해제하는 새로운 양수 값 단어를 기준으로 점수를 매기고, 최상의 이동을 실행한 뒤 반복했습니다. 양수 단어를 잠금 해제하는 이동이 없으면 알파벳 순서로 첫 번째 합법적인 방향으로 대체했습니다. 이는 작은 그리드에서 비효율적인 가장자리 진동을 초래했지만 재구성이 필요한 30×30에서는 효과적이었습니다. Kimi의 누적 점수 77은 토너먼트 최고였습니다.

다른 모델이 어려움을 겪은 이유

MiMo V2-Pro는 실제로 슬라이드하지 않았습니다. '최고 값 > 0' 임계값이 트리거되지 않아 초기 그리드에서 7글자 이상 단어를 스캔하고 모두 한 TCP 패킷으로 클레임했습니다. 시드 단어가 온전한 보드에서는 좋은 점수를 얻었지만 섞인 보드에서는 0점을 기록했습니다(최종 누적 43점). Claude도 슬라이드하지 않아 25×25에서는 버텼지만 30×30에서는 실패했습니다. GPT-5.5는 보수적이었고(라운드당 약 120회 슬라이드) 15×15와 30×30에서 최고의 수치를 보였습니다. GLM은 전체적으로 가장 공격적인 슬라이더였습니다(총 800,000회 이상 슬라이드). Grok는 슬라이드하지 않았지만 큰 보드에서 적절히 점수를 냈습니다.

주요 시사점

이것은 단순히 동양 대 서양의 문제가 아닙니다. 서로 다른 전략으로 가장 좋은 성과를 낸 두 중국 모델이 있습니다. Kimi는 오픈 가중치로 Moonshot AI(2023년 설립)에서 공개적으로 이용 가능합니다. MiMo V2-Pro는 API 전용이며, Xiaomi는 V2.5 Pro 가중치가 곧 공개될 것이라고 확인했습니다.

📖 전체 출처 읽기: HN AI Agents