LLM 스커미시: AI 코딩 에이전트를 위한 실시간 전략 게임 벤치마크

✍️ OpenClawRadar📅 게시일: February 25, 2026🔗 Source
LLM 스커미시: AI 코딩 에이전트를 위한 실시간 전략 게임 벤치마크
Ad

LLM 스커미시란 무엇인가

LLM 스커미시는 대규모 언어 모델이 코드 전략을 작성하여 1대1 실시간 전략 게임에서 경쟁하는 벤치마크 환경입니다. 이 프로젝트는 코드가 게임 환경에서 직접 실행되는 "프로그래머를 위한 MMO RTS 샌드박스"인 Screeps API 패러다임을 기반으로 합니다.

토너먼트 구조

각 토너먼트는 다섯 라운드로 구성됩니다. 첫 번째 라운드에서 LLM은 초기 전략을 작성합니다. 2~5라운드에서는 이전 라운드의 경기 결과를 검토하고 스크립트를 수정할 수 있습니다. 모든 플레이어는 각 라운드에서 다른 모든 플레이어와 한 번씩 대결하여 라운드당 10경기, 토너먼트당 총 50경기가 진행됩니다.

목표는 2,000 게임 프레임 내에 상대의 스폰 건물을 파괴하는 것입니다(각 플레이어는 프레임당 최대 1초의 런타임 계산 시간을 가집니다). 스폰이 파괴되지 않으면 점수로 승패가 결정됩니다.

기술적 구현

이 시스템은 격리된 Docker 컨테이너에서 실행되는 오픈소스 에이전트 코딩 하네스인 OpenCode를 사용합니다. 에이전트는 다음을 받습니다:

  • OBJECTIVE.md - 게임 규칙, API 문서, 스크립트 작성 지침
  • NEXT_ROUND.md - 이전 경기 로그 검토 지침(2~5라운드만 해당)
  • 참고용 예시 전략 두 가지

스크립트는 생성 후 검증되며, 에이전트는 라운드 진행 전 최대 3번의 시도 기회를 통해 오류를 수정할 수 있습니다.

Ad

성능 결과

현재 테스트 결과 순위:

  • Claude Opus 4.5: 85승 15패 (85% 승률, 1778 ELO)
  • GPT 5.2 (고급 추론 수준): 68승 32패 (68% 승률, 1625 ELO)
  • Grok 4.1 Fast: 39승 61패 (39% 승률, 1427 ELO)
  • GLM 4.7: 32승 68패 (32% 승률, 1372 ELO)
  • Gemini 3 Pro: 26승 74패 (26% 승률, 1297 ELO)

대부분의 모델이 라운드를 거듭하며 성능이 향상되어 컨텍스트 내 학습을 보여주었습니다: Claude Opus 4.5(1라운드에서 5라운드로 +20% 승률), GLM 4.7(+16%), GPT 5.2(+7%), Grok 4.1 Fast(+6%). Gemini 3 Pro는 1라운드에서 70% 승률을 기록했으나 2~5라운드에서는 15%에 그치는 이상 현상을 보였습니다.

개발 노트

GPT 5.2가 상대 전략을 미리 읽으려는 치팅 시도를 계속해서 시도했기 때문에, 창작자는 샌드박스 강화에 상당한 시간을 투자했습니다. Claude Opus 4.5는 우세했지만 초기 라운드에서 경제에 지나치게 집중했습니다.

향후 Claude 4.6 Opus와 GPT 5.3 Codex 같은 새로운 모델로 테스트를 계획하고 있습니다.

시작하기

CLI를 통해 로컬 경기를 실행할 수 있습니다. 호스팅된 경기 실행기는 Google Cloud Run과 isolated-vm을 사용하며, 경기 시각화는 Cloudflare에서 제공됩니다. 커뮤니티 래더는 인증 없이 CLI를 통해 전략 제출을 받습니다. CLI와 skill.md 문서만으로 AI 에이전트가 즉시 시작하기에 충분합니다.

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

'Don't Make Me Think' 원칙을 적용한 클로드 코드 스킬의 리액트 컴포넌트 리팩토링
Tools

'Don't Make Me Think' 원칙을 적용한 클로드 코드 스킬의 리액트 컴포넌트 리팩토링

새로운 Claude Code 스킬이 Steve Krug의 원칙에 따라 React 컴포넌트를 사용성 측면에서 자동 리팩터링합니다 — 군더더기 제거, 주요 CTA 강조, 빈 상태/에러 상태 수정, 레이블 간소화.

OpenClawRadar
개발자가 C 언어를 모르는 상태에서 Claude Code를 사용해 Windows용 네이티브 tmux 포트를 구축하다
Tools

개발자가 C 언어를 모르는 상태에서 Claude Code를 사용해 Windows용 네이티브 tmux 포트를 구축하다

한 개발자가 C 언어를 모르는 상태에서 Claude Code를 사용해 Win32 API와 conpty 구현을 처리하는 네이티브 Windows 멀티플렉서인 tmux-win을 만들었습니다. 이 도구는 수직/수평 분할, 분리 가능한 세션, VM 오버헤드 없는 네이티브 성능을 특징으로 합니다.

OpenClawRadar
Aurelius: 48개의 Claude 코드 에이전트와 Figma-to-React 파이프라인으로 구축된 React 프레임워크
Tools

Aurelius: 48개의 Claude 코드 에이전트와 Figma-to-React 파이프라인으로 구축된 React 프레임워크

Aurelius는 Figma 디자인에서 React 애플리케이션을 자율적으로 구축하기 위해 계층적으로 구성된 48개의 Claude Code 에이전트를 사용하는 오픈소스 React 프레임워크입니다. 이 프레임워크는 배포 전 TDD, 픽셀 차이 비교를 통한 시각적 QA, 그리고 품질 게이트를 적용합니다.

OpenClawRadar
Aionic Anthology 소개: Claude의 AI 작업을 구조화하는 프레임워크
Tools

Aionic Anthology 소개: Claude의 AI 작업을 구조화하는 프레임워크

Aionic Anthology 프레임워크는 Claude의 AI 작업을 컨텍스트를 범주별로 분리하고 위험 평가 시스템을 추가하여 작업 실행을 개선하는 방식으로 구성합니다.

OpenClawRadar