MiMo-V2.5-Pro 오픈소스 공개: 코딩 벤치마크 성능 비교

샤오미가 MiMo-V2.5 오픈소스 모델군을 공개했으며, Pro 버전은 Claude Opus 4.6 및 GPT-5.4와 견줄 만한 벤치마크 성능을 보여줍니다.

실제 테스트

V2.5-Pro는 베이징 대학의 컴파일러 프로젝트(Rust로 작성된 SysY 컴파일러)를 4.3시간 만에 완료하여 만점인 233/233을 기록했습니다. 이는 몇 주를 소비하는 대부분의 학생보다 높은 점수입니다. '비디오 편집기 만들어 줘'와 같은 모호한 프롬프트에 대해 자율적으로 8,192줄의 데스크탑 애플리케이션을 생성했습니다. 이 앱은 멀티 트랙 타임라인, 클립 트리밍, 크로스페이드, 오디오 믹싱 및 내보내기 파이프라인을 갖추고 있으며, 11.5시간과 1,868회의 도구 호출이 소요되었습니다. 대학원 수준의 아날로그 회로 설계 작업(TSMC 180nm 공정의 Flipped-Voltage-Follower LDO)에서는 ngspice 시뮬레이션을 통해 반복적으로 개선하여 초기 시도 대비 라인 레귤레이션을 22배, 부하 레귤레이션을 17배 향상시켰습니다.

Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro 대비 벤치마크

SWE-Bench Pro: 57.2 (vs. 57.3 Claude, 57.7 GPT, 54.2 Gemini, 55.4 DeepSeek)
SWE-Bench Verified: 78.9 (vs. 80.8 Claude, n/a GPT, 76.2 Gemini, 80.6 DeepSeek)
Terminal-Bench 2.0: 68.4 (vs. 65.4 Claude, 75.1 GPT, 68.5 Gemini, 67.9 DeepSeek) — Claude와 Gemini를 능가
Claw-Eval Pass@3: 63.8 (vs. 70.4 Claude, 60.3 GPT, 57.8 Gemini, 59.8 DeepSeek) — GPT와 Gemini를 능가
HLE with tools: 48.0 (vs. 53.0 Claude, 58.7 GPT, 51.4 Gemini, 48.2 DeepSeek) — 일반 추론에서는 뒤쳐짐
GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — GPT와 Claude에 뒤쳐짐

Claw-Eval에서 샤오미의 토큰 효율성 차트는 V2.5-Pro(63.8)가 Claude Sonnet 4.6을 능가한다고 주장합니다. V2.5-Pro는 1,000회 이상의 도구 호출에 걸친 지속적인 작업 실행을 지원하며 자체 수정이 가능합니다. 512번째 턴에서 회귀 리팩토링 패스가 자율적으로 발견되어 수정되었습니다.

가중치는 이제 오픈소스로 제공되어 다운로드 및 자체 호스팅이 가능합니다.

📖 전체 출처: HN AI Agents

샤오미, MiMo-V2.5-Pro 오픈소스 공개: 코딩 벤치마크에서 클로드 오퍼스 4.6에 근접

실제 테스트

Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro 대비 벤치마크

👀 See Also

펜타곤과 AI 기업 안트로픽 간 긴장 고조

Anthropic, AI 경쟁사들의 대규모 Claude 모델 복제 증거 보고

코딩 에이전트 의존성의 장기적 위험에 대한 레딧 토론

프론티어 AI 접근 제한 강화: Anthropic의 미토스와 선택적 출시로의 구조적 전환