샤오미, MiMo-V2.5-Pro 오픈소스 공개: 코딩 벤치마크에서 클로드 오퍼스 4.6에 근접

샤오미가 MiMo-V2.5 오픈소스 모델군을 공개했으며, Pro 버전은 Claude Opus 4.6 및 GPT-5.4와 견줄 만한 벤치마크 성능을 보여줍니다.
실제 테스트
V2.5-Pro는 베이징 대학의 컴파일러 프로젝트(Rust로 작성된 SysY 컴파일러)를 4.3시간 만에 완료하여 만점인 233/233을 기록했습니다. 이는 몇 주를 소비하는 대부분의 학생보다 높은 점수입니다. '비디오 편집기 만들어 줘'와 같은 모호한 프롬프트에 대해 자율적으로 8,192줄의 데스크탑 애플리케이션을 생성했습니다. 이 앱은 멀티 트랙 타임라인, 클립 트리밍, 크로스페이드, 오디오 믹싱 및 내보내기 파이프라인을 갖추고 있으며, 11.5시간과 1,868회의 도구 호출이 소요되었습니다. 대학원 수준의 아날로그 회로 설계 작업(TSMC 180nm 공정의 Flipped-Voltage-Follower LDO)에서는 ngspice 시뮬레이션을 통해 반복적으로 개선하여 초기 시도 대비 라인 레귤레이션을 22배, 부하 레귤레이션을 17배 향상시켰습니다.
Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro 대비 벤치마크
- SWE-Bench Pro: 57.2 (vs. 57.3 Claude, 57.7 GPT, 54.2 Gemini, 55.4 DeepSeek)
- SWE-Bench Verified: 78.9 (vs. 80.8 Claude, n/a GPT, 76.2 Gemini, 80.6 DeepSeek)
- Terminal-Bench 2.0: 68.4 (vs. 65.4 Claude, 75.1 GPT, 68.5 Gemini, 67.9 DeepSeek) — Claude와 Gemini를 능가
- Claw-Eval Pass@3: 63.8 (vs. 70.4 Claude, 60.3 GPT, 57.8 Gemini, 59.8 DeepSeek) — GPT와 Gemini를 능가
- HLE with tools: 48.0 (vs. 53.0 Claude, 58.7 GPT, 51.4 Gemini, 48.2 DeepSeek) — 일반 추론에서는 뒤쳐짐
- GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — GPT와 Claude에 뒤쳐짐
Claw-Eval에서 샤오미의 토큰 효율성 차트는 V2.5-Pro(63.8)가 Claude Sonnet 4.6을 능가한다고 주장합니다. V2.5-Pro는 1,000회 이상의 도구 호출에 걸친 지속적인 작업 실행을 지원하며 자체 수정이 가능합니다. 512번째 턴에서 회귀 리팩토링 패스가 자율적으로 발견되어 수정되었습니다.
가중치는 이제 오픈소스로 제공되어 다운로드 및 자체 호스팅이 가능합니다.
📖 전체 출처: HN AI Agents
👀 See Also

왜 모든 고객이 지금 챗봇을 원하는가 (그리고 왜 이것이 새로운 캐러셀인가)
한 개발자가 모든 고객이 웹사이트에 AI 챗봇을 원하지만 정작 자신들은 그 챗봇을 바로 닫아버린다는 트렌드를 기록하며, 과거 캐러셀 시대와의 유사점을 지적합니다.

Mac Studio에서 DeepSeek v4 Flash: 로컬 LLM이 컴파일러 코드의 실제 버그를 발견하다
한 개발자가 128GB Mac Studio에서 실행되는 DeepSeek v4 Flash가 컴파일러 코드베이스에서 유효한 버그를 성공적으로 식별했다고 공유했습니다. 이는 5개월 전만 해도 로컬 LLM으로는 불가능했던 작업입니다.

클로드는 대화에 인라인 인터랙티브 차트와 다이어그램을 추가합니다.
클로드는 이제 채팅 대화 내에서 직접 맞춤형 차트, 다이어그램 및 시각화를 생성하여 사용자가 논의가 진행됨에 따라 시각화를 조정하고 수정할 수 있게 했습니다. 이 기능은 모든 요금제 유형에서 베타로 제공되며 사이드 패널이 아닌 인라인으로 표시됩니다.

OpenRouter에 두 가지 새로운 모델이 등장했으며, 아마도 DeepSeek V4의 변종일 가능성이 있습니다.
OpenRouter에 healer-alpha와 hunter-alpha라는 두 가지 새로운 모델이 등장했으며, 이들의 사양은 유출된 DeepSeek V4 정보와 일치합니다. 초기 테스트 결과, 두 모델 모두 롤플레잉 시나리오에서 우수한 성능을 보이며 메시지 필터링이 없고 GLM 5.0보다 빠른 토큰 생성을 보여줍니다.