MiMo-V2.5-Pro vs K2.6: Benchmark zu sozialer Deduktionslogik & Preis

MiMo-V2.5-Pro, Xiaomis neuestes Open-Weights-Modell, wurde in autonomen Spielen von Blood on the Clocktower getestet – einem komplexen sozialen Deduktionsspiel ähnlich wie Mafia/Werwolf. Der Benchmark, erstellt von Reddit-Benutzer cjami, lässt Modelle in vollständigen Spielen gegeneinander antreten und misst dabei Argumentation, Täuschung und Werkzeugnutzung.

Wichtige Ergebnisse

Siegquote: 88% als gutes Team, 48% als böses Team – insgesamt hoch, aber unausgewogen. Die Leistung als böses Team ist die größte Schwäche im Vergleich zu Kimi K2.6.
Tokeneffizienz: 183.639 Ausgabetoken pro Spiel, ähnlich wie Gemini 3.1 Pro. Vergleich mit Kimi K2.6 bei 580.000 Token (3x länger).
Kosten pro Spiel: 0,99 $ – weniger als die Hälfte von Kimi K2.6 (2,65 $) und weit unter Claude Opus 4.6 (3,76 $).
Spieldauer: 2-3 Stunden (im Vergleich zu Kimi K2.6, das aufgrund ausführlicher Argumentation 10-15 Stunden dauert).
Fehlerquote bei Tool-Aufrufen: 0,4 % – zuverlässig für autonome Agenten-Workflows.

Bemerkenswerte Leistung

Starke Argumentation unter Unsicherheit: Beispiel für das Denken aus der Perspektive anderer im Vergleich zu GPT 5.5 und klare Schlussfolgerungen, die ein Spiel gewinnen.

Bemerkenswerte Fehler

Ein böser Baron, von dem erwartet wurde, dass er sich selbst verrät, führte zu einer Niederlage – gegen Claude Opus 4.6.
Ein Diener, der seine Rolle gesteht – Transkript.

Praktische Erkenntnis

Für Entwickler, die ein Open-Weights-Modell mit starker Argumentation in Multi-Agenten- oder spieltheoretischen Umgebungen benötigen, bietet MiMo-V2.5-Pro das beste Preis-Leistungs-Verhältnis unter den Top-Modellen – niedrigere Kosten, schnellere Inferenz und angemessene Zuverlässigkeit, wenn auch mit Raum für Verbesserungen in gegnerischen Rollen.

Vollständige Model-Transkripte und Spiellogs: MiMo-V2.5-Pro auf Clocktower Radio. Methodik: So funktioniert es.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

MiMo-V2.5-Pro im Benchmark: Starke soziale Deduktionslogik, gutes Preis-Leistungs-Verhältnis im Vergleich zu K2.6

Wichtige Ergebnisse

Bemerkenswerte Leistung

Bemerkenswerte Fehler

Praktische Erkenntnis

👀 Siehe auch

OpenClawd kostenlos betreiben: Erfolge und Herausforderungen

Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"

Goldman-Sachs-Analyse zeigt minimale Auswirkungen von KI auf das US-BIP-Wachstum 2025

Cannes-Film kostete 500.000 US-Dollar Produktion, 400.000 US-Dollar waren KI-Rechenkosten