MiMo-V2.5-Pro Open Source: Nähert sich Claude Opus 4.6

Xiaomi hat die MiMo-V2.5-Familie von Open-Source-Modellen veröffentlicht, wobei die Pro-Variante in Coding-Benchmarks mit Claude Opus 4.6 und GPT-5.4 konkurriert.

Praxisnahe Tests

V2.5-Pro absolvierte ein Compiler-Projekt der Universität Peking (SysY-Compiler in Rust) in 4,3 Stunden mit einer perfekten Punktzahl von 233/233 – besser als die meisten Studenten, die Wochen dafür benötigen. Auf eine vage Aufforderung wie „baue einen Videoeditor“ hin erstellte das Modell autonom eine 8.192-zeilige Desktop-Anwendung mit Multi-Track-Zeitleiste, Clip-Trimmung, Überblendungen, Audiomischung und Export-Pipeline nach 11,5 Stunden und 1.868 Tool-Aufrufen. Bei einer anspruchsvollen analogtechnischen Schaltungsentwurfsaufgabe (Flipped-Voltage-Follower LDO in TSMC 180nm) iterierte es mittels ngspice-Simulation und verbesserte die Netzregelung um das 22-fache und die Lastregelung um das 17-fache gegenüber seinem eigenen ersten Versuch.

Benchmarks im Vergleich zu Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

SWE-Bench Pro: 57,2 (vs. 57,3 Claude, 57,7 GPT, 54,2 Gemini, 55,4 DeepSeek)
SWE-Bench Verified: 78,9 (vs. 80,8 Claude, n/a GPT, 76,2 Gemini, 80,6 DeepSeek)
Terminal-Bench 2.0: 68,4 (vs. 65,4 Claude, 75,1 GPT, 68,5 Gemini, 67,9 DeepSeek) – führt vor Claude und Gemini
Claw-Eval Pass@3: 63,8 (vs. 70,4 Claude, 60,3 GPT, 57,8 Gemini, 59,8 DeepSeek) – schlägt GPT und Gemini
HLE mit Tools: 48,0 (vs. 53,0 Claude, 58,7 GPT, 51,4 Gemini, 48,2 DeepSeek) – liegt beim allgemeinen Denken zurück
GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) – liegt hinter GPT und Claude

Bei Claw-Eval behauptet Xiaomis Token-Effizienz-Diagramm außerdem, dass V2.5-Pro (63,8) Claude Sonnet 4.6 schlägt. V2.5-Pro unterstützt die Ausführung längerer Aufgaben mit über 1.000 Tool-Aufrufen und Selbstkorrektur; ein rückschrittlicher Refactoring-Durchlauf bei Schritt 512 wurde autonom erkannt und behoben.

Die Gewichte sind jetzt als Open Source zum Download und zum Selbsthosten verfügbar.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

Xiaomi veröffentlicht MiMo-V2.5-Pro als Open Source: Nähert sich Claude Opus 4.6 bei Programmier-Benchmarks

Praxisnahe Tests

Benchmarks im Vergleich zu Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

👀 Siehe auch

Claude Opus 4.6 Gedächtnisausfall: Agent vergisst alles außer Dateiumbenennung

Google: 75 % des neuen Codes sind KI-generiert, Code-Migration mit Agents 6x schneller

Claude Code v2.1.162 bringt Sitzungswarteinformationen, MCP-Timeout-Behebung und Überarbeitung der Agentenansicht

Claude Opus 4.8 veröffentlicht: Schnellerer, günstigerer Schnellmodus, dynamische Workflows und Verbesserungen bei der Ehrlichkeit