MiMo-V2.5-Pro 벤치마크 결과: 강력한 사회 추론 능력, K2.6 대비 우수한 가치

✍️ OpenClawRadar📅 게시일: May 1, 2026🔗 Source

MiMo-V2.5-Pro 벤치마크 결과: 강력한 사회 추론 능력, K2.6 대비 우수한 가치

Ad

샤오미의 최신 오픈 가중치 모델인 MiMo-V2.5-Pro가 복잡한 사회 추리 게임 Blood on the Clocktower(마피아/늑대인간과 유사)의 자율 게임에서 벤치마크 테스트를 거쳤습니다. Reddit 사용자 cjami가 만든 이 벤치마크는 모델들을 완전한 게임에서 겨루게 하여 추론, 속임수, 도구 사용 능력을 측정합니다.

주요 결과

승률: 선(Good) 팀 88%, 악(Evil) 팀 48% — 전반적으로 높지만 편향됨. 악(Evil) 성능이 Kimi K2.6 대비 주요 약점입니다.
토큰 효율: 게임당 183,639개의 출력 토큰으로 Gemini 3.1 Pro와 유사합니다. Kimi K2.6은 580,000토큰(3배 더 김)입니다.
게임당 비용: $0.99 — Kimi K2.6($2.65)의 절반 미만, Claude Opus 4.6($3.76)보다 훨씬 낮습니다.
매치 시간: 2-3시간 (Kimi K2.6은 장황한 추론으로 10-15시간 소요).
도구 호출 오류율: 0.4% — 자율 에이전트 워크플로에 신뢰할 만함.

주목할 만한 성과

불확실성 속에서 강력한 추론: GPT 5.5 대비 타인의 관점에서 생각하는 예 및 깔끔한 추론으로 게임에서 승리한 사례.

Ad

주목할 만한 실수

악(Evil) Baron이 자진해서 정체를 밝힐 것으로 예상하여 패배 — Claude Opus 4.6 대비.
Minion이 자신의 역할을 고백 — 대화 기록.

실용적 시사점

다중 에이전트 또는 게임 이론 설정에서 강력한 추론이 필요한 오픈 가중치 모델을 찾는 개발자에게 MiMo-V2.5-Pro는 최고 등급 모델 중 최고의 가치를 제공합니다 — 낮은 비용, 빠른 추론, 합리적인 신뢰성, 다만 적대적 역할에서는 개선의 여지가 있습니다.

전체 모델 대화 기록 및 게임 로그: Clocktower Radio의 MiMo-V2.5-Pro. 방법론: 작동 방식.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

Anthropic, 텔레그램이나 디스코드에서 메시지를 보내는 클로드 코드 채널 출시

Anthropic, 텔레그램이나 디스코드에서 메시지를 보내는 클로드 코드 채널 출시

Anthropic이 Claude Code Channels를 출시하여 개발자들이 Telegram이나 Discord에서 AI 코딩 세션에 메시지를 보내면서 코드를 로컬에 유지할 수 있게 했습니다.

Mar 26, 2026, 09:45 PM UTC

클로드 코드 시스템 프롬프트 v2.1.53-2.1.55: 메모리 선택 기능 추가, 명령 실행 기능 제거

클로드 코드 시스템 프롬프트 v2.1.53-2.1.55: 메모리 선택 기능 추가, 명령 실행 기능 제거

Claude Code 시스템 프롬프트 버전 2.1.53부터 2.1.55까지 메모리 선택 지침(156 토큰)이 추가되었고, 명령 실행 전문가(109 토큰)가 제거되었으며, 프롬프트가 약 70개의 원자적 파일로 재구성되었습니다. 백그라운드 에이전트는 이제 출력 파일 경로를 제공하는 대신 완료 시 자동으로 알림을 보냅니다.

Feb 25, 2026, 07:45 PM UTC

2026년 6월 15일부터 클로드 플랜 사용자에게 월 에이전트 SDK 크레딧 제공

Claude Pro, Max, Team 및 Enterprise 플랜 구독자는 에이전트 SDK 사용량에 대해 월별 크레딧을 청구할 수 있습니다. 이 크레딧은 claude -p, GitHub Actions 통합 및 타사 앱을 포함합니다. 크레딧은 매월 갱신되며 사용자별로 제공되며 공유할 수 없습니다.

May 13, 2026, 08:15 PM UTC

클로드 데일리 다이제스트: /dream 기능 출시, 사용 제한에 대한 반발, 접근성 도구

클로드 데일리 다이제스트: /dream 기능 출시, 사용 제한에 대한 반발, 접근성 도구

Anthropic은 Claude의 자동 메모리 시스템을 위한 /dream 기능을 출시했으며, 커뮤니티에서는 사용량 제한에 대한 불만이 제기되고 있습니다. 한 청각 장애 개발자는 Claude Code용 터미널 플래시 알림 플러그인을 제작했습니다.

Mar 25, 2026, 08:45 AM UTC