MiMo-V2.5-Pro im Benchmark: Starke soziale Deduktionslogik, gutes Preis-Leistungs-Verhältnis im Vergleich zu K2.6

MiMo-V2.5-Pro, Xiaomis neuestes Open-Weights-Modell, wurde in autonomen Spielen von Blood on the Clocktower getestet – einem komplexen sozialen Deduktionsspiel ähnlich wie Mafia/Werwolf. Der Benchmark, erstellt von Reddit-Benutzer cjami, lässt Modelle in vollständigen Spielen gegeneinander antreten und misst dabei Argumentation, Täuschung und Werkzeugnutzung.
Wichtige Ergebnisse
- Siegquote: 88% als gutes Team, 48% als böses Team – insgesamt hoch, aber unausgewogen. Die Leistung als böses Team ist die größte Schwäche im Vergleich zu Kimi K2.6.
- Tokeneffizienz: 183.639 Ausgabetoken pro Spiel, ähnlich wie Gemini 3.1 Pro. Vergleich mit Kimi K2.6 bei 580.000 Token (3x länger).
- Kosten pro Spiel: 0,99 $ – weniger als die Hälfte von Kimi K2.6 (2,65 $) und weit unter Claude Opus 4.6 (3,76 $).
- Spieldauer: 2-3 Stunden (im Vergleich zu Kimi K2.6, das aufgrund ausführlicher Argumentation 10-15 Stunden dauert).
- Fehlerquote bei Tool-Aufrufen: 0,4 % – zuverlässig für autonome Agenten-Workflows.
Bemerkenswerte Leistung
Starke Argumentation unter Unsicherheit: Beispiel für das Denken aus der Perspektive anderer im Vergleich zu GPT 5.5 und klare Schlussfolgerungen, die ein Spiel gewinnen.
Bemerkenswerte Fehler
- Ein böser Baron, von dem erwartet wurde, dass er sich selbst verrät, führte zu einer Niederlage – gegen Claude Opus 4.6.
- Ein Diener, der seine Rolle gesteht – Transkript.
Praktische Erkenntnis
Für Entwickler, die ein Open-Weights-Modell mit starker Argumentation in Multi-Agenten- oder spieltheoretischen Umgebungen benötigen, bietet MiMo-V2.5-Pro das beste Preis-Leistungs-Verhältnis unter den Top-Modellen – niedrigere Kosten, schnellere Inferenz und angemessene Zuverlässigkeit, wenn auch mit Raum für Verbesserungen in gegnerischen Rollen.
Vollständige Model-Transkripte und Spiellogs: MiMo-V2.5-Pro auf Clocktower Radio. Methodik: So funktioniert es.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

OpenClawd kostenlos betreiben: Erfolge und Herausforderungen
In einem aktuellen Beitrag auf r/clawdbot teilt ein Mitglied seine Erfahrungen mit der Nutzung von OpenClawd ohne API-Schlüssel und berichtet über seine Erfolge sowie die Herausforderungen, die er dabei gemeistert hat.

Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"
Neue Studie von Berkeley misst 300 persönliche Erzählungen mit Claude, ChatGPT und Gemini unter drei Prompt-Bedingungen. Jedes Modell und jede Bedingung reduziert Kontraktionen, Ich-Pronomen und narrative Nähe – der Prompt „Stimme bewahren“ verringert nur die Stärke der Abweichung, nicht deren Richtung.

Goldman-Sachs-Analyse zeigt minimale Auswirkungen von KI auf das US-BIP-Wachstum 2025
Goldman-Sachs-Ökonomen berichten, dass KI-Investitionen im Jahr 2025 'praktisch null' zum US-BIP-Wachstum beigetragen haben, wobei importierte Hardware und nicht gemessene Produktivitätsauswirkungen als Schlüsselfaktoren genannt werden.

Cannes-Film kostete 500.000 US-Dollar Produktion, 400.000 US-Dollar waren KI-Rechenkosten
Ein Film, der in Cannes gezeigt wurde, kostete 500.000 $ in der Produktion – 400.000 $ davon entfielen auf KI-Berechnung. Ein auffälliger Datenpunkt für Entwickler von KI-Agenten, die generative Videopipelines entwickeln.