Kimi K2.6, 공격적인 슬라이딩 전략으로 코딩 챌린지에서 Claude, GPT-5.5, Gemini 제쳐

✍️ OpenClawRadar📅 게시일: May 3, 2026🔗 Source
Kimi K2.6, 공격적인 슬라이딩 전략으로 코딩 챌린지에서 Claude, GPT-5.5, Gemini 제쳐
Ad

Kimi K2.6, Word Gem Puzzle 벤치마크 우승

Moonshot AI의 오픈 가중치 Kimi K2.6이 12일차 Word Gem Puzzle(실시간 슬라이딩 타일 문자 퍼즐)에서 모든 서구 최첨단 모델을 이겼습니다. Nvidia의 Nemotron Super 3가 구문 오류로 연결에 실패한 후 9개 모델이 경쟁했습니다.

최종 순위

  • 1위: Kimi K2.6 — 22 매치 포인트 (7-1-0)
  • 2위: MiMo V2-Pro — 20 포인트 (6-2-0)
  • 3위: ChatGPT GPT-5.5 — 16 포인트 (5-1-2)
  • 4위: GLM 5.1 (Zhipu AI) — 15 포인트
  • 5위: Claude Opus 4.7 — 12 포인트
  • 6위: Gemini Pro 3.1 — 9 포인트
  • 7위: Grok Expert 4.2 — 9 포인트
  • 8위: DeepSeek V4 — 3 포인트
  • 9위: Muse Spark — 0 포인트

퍼즐 작동 방식

보드는 문자 타일과 빈 칸 하나로 채워진 직사각형 그리드(10×10 ~ 30×30)입니다. 봇은 인접 타일을 빈 칸으로 슬라이드하고 직선 가로/세로 줄에서 유효한 영어 단어를 클레임합니다. 대각선과 역방향은 인정되지 않습니다. 점수: 7글자 미만 단어는 점수를 잃고(5글자: -1, 3글자: -3), 7글자 이상 단어는 길이 - 6점을 얻습니다(8글자: +2). 각 단어는 한 번만 클레임할 수 있습니다. 그리드는 크로스워드 레이아웃의 사전 단어로 시드되고 나머지 셀은 스크래블 가중치 문자로 채워진 후 (큰 보드에서 더 공격적으로) 섞입니다. 30×30에서는 거의 모든 시드 단어가 깨집니다.

Ad

Kimi의 승리 전략

Kimi는 탐욕적 접근법을 사용했습니다: 각 가능한 이동이 잠금 해제하는 새로운 양수 값 단어를 기준으로 점수를 매기고, 최상의 이동을 실행한 뒤 반복했습니다. 양수 단어를 잠금 해제하는 이동이 없으면 알파벳 순서로 첫 번째 합법적인 방향으로 대체했습니다. 이는 작은 그리드에서 비효율적인 가장자리 진동을 초래했지만 재구성이 필요한 30×30에서는 효과적이었습니다. Kimi의 누적 점수 77은 토너먼트 최고였습니다.

다른 모델이 어려움을 겪은 이유

MiMo V2-Pro는 실제로 슬라이드하지 않았습니다. '최고 값 > 0' 임계값이 트리거되지 않아 초기 그리드에서 7글자 이상 단어를 스캔하고 모두 한 TCP 패킷으로 클레임했습니다. 시드 단어가 온전한 보드에서는 좋은 점수를 얻었지만 섞인 보드에서는 0점을 기록했습니다(최종 누적 43점). Claude도 슬라이드하지 않아 25×25에서는 버텼지만 30×30에서는 실패했습니다. GPT-5.5는 보수적이었고(라운드당 약 120회 슬라이드) 15×15와 30×30에서 최고의 수치를 보였습니다. GLM은 전체적으로 가장 공격적인 슬라이더였습니다(총 800,000회 이상 슬라이드). Grok는 슬라이드하지 않았지만 큰 보드에서 적절히 점수를 냈습니다.

주요 시사점

이것은 단순히 동양 대 서양의 문제가 아닙니다. 서로 다른 전략으로 가장 좋은 성과를 낸 두 중국 모델이 있습니다. Kimi는 오픈 가중치로 Moonshot AI(2023년 설립)에서 공개적으로 이용 가능합니다. MiMo V2-Pro는 API 전용이며, Xiaomi는 V2.5 Pro 가중치가 곧 공개될 것이라고 확인했습니다.

📖 전체 출처 읽기: HN AI Agents

Ad

👀 See Also

Claude-Code v2.1.105 릴리스: 워크트리 개선, 플러그인 모니터 및 UI 수정
News

Claude-Code v2.1.105 릴리스: 워크트리 개선, 플러그인 모니터 및 UI 수정

Claude-Code v2.1.105는 기존 작업 트리로 전환하기 위한 EnterWorktree 도구에 경로 매개변수를 추가하고, 모니터 매니페스트 키를 통해 플러그인에 대한 백그라운드 모니터 지원을 도입하며, UI 표시 문제, MCP 서버 처리, 터미널 호환성을 포함한 30개 이상의 문제를 수정합니다.

OpenClawRadar
클로드가 실시간 파이썬 코딩 챌린지에서 제미나이, 챗GPT, 그록을 능가합니다
News

클로드가 실시간 파이썬 코딩 챌린지에서 제미나이, 챗GPT, 그록을 능가합니다

한 개발자가 Claude, Gemini, ChatGPT, Grok을 대상으로 실시간 Python 코딩 토너먼트를 진행했습니다. AI가 생성한 봇들이 15×15 글자 격자판에서 단어를 찾는 경쟁을 펼쳤고, Claude가 압도적으로 승리했습니다.

OpenClawRadar
Anthropic, AI 경쟁사들의 대규모 Claude 모델 복제 증거 보고
News

Anthropic, AI 경쟁사들의 대규모 Claude 모델 복제 증거 보고

Anthropic은 DeepSeek, Moonshot, MiniMax가 약 24,000개의 가짜 계정을 사용해 Claude로부터 대규모 증류를 진행했으며, 1,600만 건 이상의 교환 기록이 확인되었다는 증거를 공유했습니다.

OpenClawRadar
GPT 5.5 vs Claude: 개발자의 리팩토링 전쟁 보고서
News

GPT 5.5 vs Claude: 개발자의 리팩토링 전쟁 보고서

한 개발자가 GPT 5.5로 계획을 세우고 Claude로 코딩하여 36,000줄의 C 리팩토링을 대규모로 수행했습니다. GPT 5.5는 명확한 계획으로 인상적이었지만, 30달러 요금제에서 2시간 만에 사용량의 85%를 소진했습니다.

OpenClawRadar