Xiaomi veröffentlicht MiMo-V2.5-Pro als Open Source: Nähert sich Claude Opus 4.6 bei Programmier-Benchmarks

Xiaomi hat die MiMo-V2.5-Familie von Open-Source-Modellen veröffentlicht, wobei die Pro-Variante in Coding-Benchmarks mit Claude Opus 4.6 und GPT-5.4 konkurriert.
Praxisnahe Tests
V2.5-Pro absolvierte ein Compiler-Projekt der Universität Peking (SysY-Compiler in Rust) in 4,3 Stunden mit einer perfekten Punktzahl von 233/233 – besser als die meisten Studenten, die Wochen dafür benötigen. Auf eine vage Aufforderung wie „baue einen Videoeditor“ hin erstellte das Modell autonom eine 8.192-zeilige Desktop-Anwendung mit Multi-Track-Zeitleiste, Clip-Trimmung, Überblendungen, Audiomischung und Export-Pipeline nach 11,5 Stunden und 1.868 Tool-Aufrufen. Bei einer anspruchsvollen analogtechnischen Schaltungsentwurfsaufgabe (Flipped-Voltage-Follower LDO in TSMC 180nm) iterierte es mittels ngspice-Simulation und verbesserte die Netzregelung um das 22-fache und die Lastregelung um das 17-fache gegenüber seinem eigenen ersten Versuch.
Benchmarks im Vergleich zu Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro
- SWE-Bench Pro: 57,2 (vs. 57,3 Claude, 57,7 GPT, 54,2 Gemini, 55,4 DeepSeek)
- SWE-Bench Verified: 78,9 (vs. 80,8 Claude, n/a GPT, 76,2 Gemini, 80,6 DeepSeek)
- Terminal-Bench 2.0: 68,4 (vs. 65,4 Claude, 75,1 GPT, 68,5 Gemini, 67,9 DeepSeek) – führt vor Claude und Gemini
- Claw-Eval Pass@3: 63,8 (vs. 70,4 Claude, 60,3 GPT, 57,8 Gemini, 59,8 DeepSeek) – schlägt GPT und Gemini
- HLE mit Tools: 48,0 (vs. 53,0 Claude, 58,7 GPT, 51,4 Gemini, 48,2 DeepSeek) – liegt beim allgemeinen Denken zurück
- GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) – liegt hinter GPT und Claude
Bei Claw-Eval behauptet Xiaomis Token-Effizienz-Diagramm außerdem, dass V2.5-Pro (63,8) Claude Sonnet 4.6 schlägt. V2.5-Pro unterstützt die Ausführung längerer Aufgaben mit über 1.000 Tool-Aufrufen und Selbstkorrektur; ein rückschrittlicher Refactoring-Durchlauf bei Schritt 512 wurde autonom erkannt und behoben.
Die Gewichte sind jetzt als Open Source zum Download und zum Selbsthosten verfügbar.
📖 Lesen Sie die vollständige Quelle: HN AI Agents
👀 Siehe auch

Claude Opus 4.6 Gedächtnisausfall: Agent vergisst alles außer Dateiumbenennung
Ein Entwickler dokumentiert die 228 Logeinträge, 95 Agentenaktionen und 38 Codeausführungen von Claude Opus 4.6, die nur einen Speicher produzierten: die Zeichenfolge „Agent Zero Tune-Up“.

Google: 75 % des neuen Codes sind KI-generiert, Code-Migration mit Agents 6x schneller
Google berichtet, dass 75 % des neuen Codes KI-generiert sind, gegenüber 25 % im Jahr 2024. Eine komplexe Code-Migration wurde mit Gemini-Agenten sechsmal schneller abgeschlossen. In einigen Organisationen haben Ingenieure KI-Nutzungsziele, die an Leistungsbeurteilungen gekoppelt sind.

Claude Code v2.1.162 bringt Sitzungswarteinformationen, MCP-Timeout-Behebung und Überarbeitung der Agentenansicht
Claude Code v2.1.162 fügt `waitingFor` zur `--json`-Ausgabe hinzu, behebt einen MCP-Timeout-Fehler unter 1000 ms, verbessert die Terminaldarstellung der Agents-Ansicht und mehr. Details im Inneren.

Claude Opus 4.8 veröffentlicht: Schnellerer, günstigerer Schnellmodus, dynamische Workflows und Verbesserungen bei der Ehrlichkeit
Anthropic aktualisiert Claude Opus auf 4.8 mit Benchmark-Verbesserungen, dynamischen Workflows in Claude Code, 2,5x schnellerem Fast Mode zu einem um den Faktor 3 günstigeren Preis sowie Honesty Training.