Kimi K2.6 vs Claude, GPT-5.5: Gewinnt Coding Contest mit 22 Punkten

Kimi K2.6 gewinnt Word-Gem-Puzzle-Benchmark

Moonshot AIs Open-Weights-Modell Kimi K2.6 schlug alle westlichen Frontier-Modelle im Word Gem Puzzle des 12. Tages, einem Echtzeit-Buchstabenpuzzle mit verschiebbaren Kacheln. Neun Modelle traten an, nachdem Nvidias Nemotron Super 3 aufgrund eines Syntaxfehlers keine Verbindung herstellen konnte.

Endgültige Platzierungen

1. Platz: Kimi K2.6 — 22 Matchpunkte (7-1-0)
2. Platz: MiMo V2-Pro — 20 Punkte (6-2-0)
3. Platz: ChatGPT GPT-5.5 — 16 Punkte (5-1-2)
4. Platz: GLM 5.1 (Zhipu AI) — 15 Punkte
5. Platz: Claude Opus 4.7 — 12 Punkte
6. Platz: Gemini Pro 3.1 — 9 Punkte
7. Platz: Grok Expert 4.2 — 9 Punkte
8. Platz: DeepSeek V4 — 3 Punkte
9. Platz: Muse Spark — 0 Punkte

Wie das Puzzle funktioniert

Das Spielfeld ist ein rechteckiges Gitter (10×10 bis 30×30), gefüllt mit Buchstabenkacheln und einem leeren Feld. Bots schieben benachbarte Kacheln in das leere Feld und beanspruchen gültige englische Wörter in geraden horizontalen/vertikalen Linien. Diagonalen und Rückwärtsgelesenes zählen nicht. Wertung: Wörter unter 7 Buchstaben kosten Punkte (5 Buchstaben: -1, 3 Buchstaben: -3). Wörter mit 7+ Buchstaben erzielen Länge - 6 (8 Buchstaben: +2). Jedes Wort kann nur einmal beansprucht werden. Die Gitter werden mit Wörterbuchwörtern in Kreuzworträtselform bestückt, die restlichen Zellen mit Scrabble-gewichteten Buchstaben gefüllt und dann gemischt (bei größeren Brettern aggressiver). Auf 30×30 sind fast alle Saatwörter zerbrochen.

Kimi's Siegerstrategie

Kimi verwendete einen gierigen Ansatz: Bewertung jedes möglichen Zuges danach, welche neuen positiv bewerteten Wörter er freischaltet, Ausführung des besten, Wiederholung. Wenn kein Zug ein positives Wort freischaltete, fiel es auf die erste legale Richtung alphabetisch zurück. Dies führte auf kleinen Gittern zu ineffizientem Hin- und Herpendeln am Rand, zahlte sich aber auf 30×30 aus, wo eine Rekonstruktion nötig war – Kimis kumulative Punktzahl von 77 war die höchste des Turniers.

Warum andere Modelle kämpften

MiMo V2-Pro schob nie tatsächlich – sein Schwellenwert "bester Wert > 0" wurde nie ausgelöst, also scannte es das Anfangsgitter nach Wörtern mit 7+ Buchstaben und beanspruchte alle in einem einzigen TCP-Paket. Es punktete gut auf Brettern mit intakten Saatwörtern, aber null auf gemischten (endgültig: 43 kumulative Punkte). Claude schob ebenfalls nicht, hielt auf 25×25 mit, scheiterte aber auf 30×30. GPT-5.5 war konservativ (~120 Schübe/Runde) und zeigte seine besten Zahlen auf 15×15 und 30×30. GLM war insgesamt der aggressivste Schieber (>800.000 Gesamtschübe). Grok schob nie, punktete aber auf größeren Brettern ganz gut.

Wichtigste Erkenntnis

Dies ist nicht einfach Ost gegen West – es sind zwei spezifische chinesische Modelle, die mit sehr unterschiedlichen Strategien am besten abschnitten. Kimi ist Open-Weights und öffentlich verfügbar von Moonshot AI (gegründet 2023). MiMo V2-Pro ist nur über API verfügbar; Xiaomi bestätigte, dass V2.5-Pro-Gewichte bald veröffentlicht werden.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

Kimi K2.6 schlägt Claude, GPT-5.5 und Gemini bei Programmierherausforderung mit aggressiver Gleitstrategie

Kimi K2.6 gewinnt Word-Gem-Puzzle-Benchmark

Endgültige Platzierungen

Wie das Puzzle funktioniert

Kimi's Siegerstrategie

Warum andere Modelle kämpften

Wichtigste Erkenntnis

👀 Siehe auch

Claude Code v2.1.51 hat die Abrechnung für 1M Kontext ohne Benachrichtigung geändert

Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.

4 Monate, $950 MRR: Bau eines MCP-Servers für Claude Code Intel

Claude verliert die Fähigkeit, Produktpreise über Einzelhändler hinweg abzurufen