MiMo-V2.5-Pro 벤치마크 결과: 강력한 사회 추론 능력, K2.6 대비 우수한 가치

샤오미의 최신 오픈 가중치 모델인 MiMo-V2.5-Pro가 복잡한 사회 추리 게임 Blood on the Clocktower(마피아/늑대인간과 유사)의 자율 게임에서 벤치마크 테스트를 거쳤습니다. Reddit 사용자 cjami가 만든 이 벤치마크는 모델들을 완전한 게임에서 겨루게 하여 추론, 속임수, 도구 사용 능력을 측정합니다.
주요 결과
- 승률: 선(Good) 팀 88%, 악(Evil) 팀 48% — 전반적으로 높지만 편향됨. 악(Evil) 성능이 Kimi K2.6 대비 주요 약점입니다.
- 토큰 효율: 게임당 183,639개의 출력 토큰으로 Gemini 3.1 Pro와 유사합니다. Kimi K2.6은 580,000토큰(3배 더 김)입니다.
- 게임당 비용: $0.99 — Kimi K2.6($2.65)의 절반 미만, Claude Opus 4.6($3.76)보다 훨씬 낮습니다.
- 매치 시간: 2-3시간 (Kimi K2.6은 장황한 추론으로 10-15시간 소요).
- 도구 호출 오류율: 0.4% — 자율 에이전트 워크플로에 신뢰할 만함.
주목할 만한 성과
불확실성 속에서 강력한 추론: GPT 5.5 대비 타인의 관점에서 생각하는 예 및 깔끔한 추론으로 게임에서 승리한 사례.
주목할 만한 실수
- 악(Evil) Baron이 자진해서 정체를 밝힐 것으로 예상하여 패배 — Claude Opus 4.6 대비.
- Minion이 자신의 역할을 고백 — 대화 기록.
실용적 시사점
다중 에이전트 또는 게임 이론 설정에서 강력한 추론이 필요한 오픈 가중치 모델을 찾는 개발자에게 MiMo-V2.5-Pro는 최고 등급 모델 중 최고의 가치를 제공합니다 — 낮은 비용, 빠른 추론, 합리적인 신뢰성, 다만 적대적 역할에서는 개선의 여지가 있습니다.
전체 모델 대화 기록 및 게임 로그: Clocktower Radio의 MiMo-V2.5-Pro. 방법론: 작동 방식.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

Anthropic, 클로드 코드 사용 한도 두 배로 늘리고 SpaceX와 컴퓨팅 계약 체결
Anthropic은 Claude Code Pro 및 Max 구독자의 5시간 사용 창을 두 배로 늘리고, 피크 시간 제한을 제거했으며, Opus의 API 한도를 높였습니다. 이는 SpaceX와의 새로운 계약을 통해 Colossus 1 슈퍼컴퓨터(220,000개 이상의 NVIDIA GPU)에서 300MW 이상의 컴퓨팅 용량을 확보한 데 따른 것입니다.

Claude-Code v2.1.97 릴리스: 화면 깜빡임 개선, 권한 수정 및 MCP 업데이트
Claude-Code v2.1.97는 NO_FLICKER 모드에서 포커스 뷰 토글(Ctrl+O)을 추가하고, 여러 권한 및 MCP 연결 문제를 수정하며, 샌드박스 네트워크 접근성을 개선했습니다. 이번 릴리스는 429 재시도 동작, 트랜스크립트 지속성 문제, 다양한 UI 버그를 해결합니다.

Talkie: 1931년 이전 텍스트만으로 훈련된 13B LLM, RL 훈련에서 심사자로 클로드 활용
연구진이 1931년 이전(인터넷, 제2차 세계대전 데이터 없음)에 출판된 텍스트만으로 훈련된 13B LLM인 Talkie를 발표했습니다. 온라인 DPO 강화 학습 파이프라인에서 심사자로 Claude Sonnet 4.6을 사용했으며, Claude Opus 4.4가 미세 조정을 위해 합성 다중 턴 대화를 생성했습니다. 모델은 훈련 데이터에 현대 코드가 전혀 없음에도 불구하고 몇 가지 맥락 예제만으로 Python 코드를 작성할 수 있습니다.

Autonoma의 18개월 코드베이스 재작성: 테스트, 기술 부채, 서버 액션에 관한 교훈
Autonoma는 2명에서 14명의 엔지니어로 확장한 후 1.5년간의 코드를 버렸습니다. 테스트 부재, 엄격하지 않은 TypeScript, Server Actions의 한계를 재작성의 주요 이유로 꼽았습니다.