Kimi K2.6 schlägt Claude, GPT-5.5 und Gemini bei Programmierherausforderung mit aggressiver Gleitstrategie

Kimi K2.6 gewinnt Word-Gem-Puzzle-Benchmark
Moonshot AIs Open-Weights-Modell Kimi K2.6 schlug alle westlichen Frontier-Modelle im Word Gem Puzzle des 12. Tages, einem Echtzeit-Buchstabenpuzzle mit verschiebbaren Kacheln. Neun Modelle traten an, nachdem Nvidias Nemotron Super 3 aufgrund eines Syntaxfehlers keine Verbindung herstellen konnte.
Endgültige Platzierungen
- 1. Platz: Kimi K2.6 — 22 Matchpunkte (7-1-0)
- 2. Platz: MiMo V2-Pro — 20 Punkte (6-2-0)
- 3. Platz: ChatGPT GPT-5.5 — 16 Punkte (5-1-2)
- 4. Platz: GLM 5.1 (Zhipu AI) — 15 Punkte
- 5. Platz: Claude Opus 4.7 — 12 Punkte
- 6. Platz: Gemini Pro 3.1 — 9 Punkte
- 7. Platz: Grok Expert 4.2 — 9 Punkte
- 8. Platz: DeepSeek V4 — 3 Punkte
- 9. Platz: Muse Spark — 0 Punkte
Wie das Puzzle funktioniert
Das Spielfeld ist ein rechteckiges Gitter (10×10 bis 30×30), gefüllt mit Buchstabenkacheln und einem leeren Feld. Bots schieben benachbarte Kacheln in das leere Feld und beanspruchen gültige englische Wörter in geraden horizontalen/vertikalen Linien. Diagonalen und Rückwärtsgelesenes zählen nicht. Wertung: Wörter unter 7 Buchstaben kosten Punkte (5 Buchstaben: -1, 3 Buchstaben: -3). Wörter mit 7+ Buchstaben erzielen Länge - 6 (8 Buchstaben: +2). Jedes Wort kann nur einmal beansprucht werden. Die Gitter werden mit Wörterbuchwörtern in Kreuzworträtselform bestückt, die restlichen Zellen mit Scrabble-gewichteten Buchstaben gefüllt und dann gemischt (bei größeren Brettern aggressiver). Auf 30×30 sind fast alle Saatwörter zerbrochen.
Kimi's Siegerstrategie
Kimi verwendete einen gierigen Ansatz: Bewertung jedes möglichen Zuges danach, welche neuen positiv bewerteten Wörter er freischaltet, Ausführung des besten, Wiederholung. Wenn kein Zug ein positives Wort freischaltete, fiel es auf die erste legale Richtung alphabetisch zurück. Dies führte auf kleinen Gittern zu ineffizientem Hin- und Herpendeln am Rand, zahlte sich aber auf 30×30 aus, wo eine Rekonstruktion nötig war – Kimis kumulative Punktzahl von 77 war die höchste des Turniers.
Warum andere Modelle kämpften
MiMo V2-Pro schob nie tatsächlich – sein Schwellenwert "bester Wert > 0" wurde nie ausgelöst, also scannte es das Anfangsgitter nach Wörtern mit 7+ Buchstaben und beanspruchte alle in einem einzigen TCP-Paket. Es punktete gut auf Brettern mit intakten Saatwörtern, aber null auf gemischten (endgültig: 43 kumulative Punkte). Claude schob ebenfalls nicht, hielt auf 25×25 mit, scheiterte aber auf 30×30. GPT-5.5 war konservativ (~120 Schübe/Runde) und zeigte seine besten Zahlen auf 15×15 und 30×30. GLM war insgesamt der aggressivste Schieber (>800.000 Gesamtschübe). Grok schob nie, punktete aber auf größeren Brettern ganz gut.
Wichtigste Erkenntnis
Dies ist nicht einfach Ost gegen West – es sind zwei spezifische chinesische Modelle, die mit sehr unterschiedlichen Strategien am besten abschnitten. Kimi ist Open-Weights und öffentlich verfügbar von Moonshot AI (gegründet 2023). MiMo V2-Pro ist nur über API verfügbar; Xiaomi bestätigte, dass V2.5-Pro-Gewichte bald veröffentlicht werden.
📖 Lesen Sie die vollständige Quelle: HN AI Agents
👀 Siehe auch

Claude Code v2.1.51 hat die Abrechnung für 1M Kontext ohne Benachrichtigung geändert
Anthropics Claude Code v2.1.51-Update änderte stillschweigend die Abrechnung für 1-Millionen-Kontextfenster in Max-Plänen. Kontext-Token über 200.000 umgehen nun das Abonnement-Kontingent und gehen direkt in die Zusatznutzungsgebühren, selbst wenn Abonnementbudgets noch verfügbar sind.

Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.
Das IDP-Leaderboard testete 16 KI-Modelle an über 9.000 Dokumenten in den Bereichen OCR, Tabellenextraktion, Schlüsselextraktion, visuelle Fragenbeantwortung, Handschrift und lange Dokumente. Claude Sonnet 4.6 erzielte insgesamt 80,8 Punkte und lag damit im Wesentlichen gleichauf mit Opus 4.6 bei 80,3, während Haiku 4.5 auf 69,6 Punkte kam.

4 Monate, $950 MRR: Bau eines MCP-Servers für Claude Code Intel
Ein Solo-Entwickler hat einen MCP-Server für Codebase-Intelligenz gebaut, in 4 Monaten $950 MRR mit 54 Nutzern erreicht und dabei 8-10 Stunden nach einem Tagjob gearbeitet. Keine Anzeigen, kein Growth Hacking – nur Reddit und Medium.

Claude verliert die Fähigkeit, Produktpreise über Einzelhändler hinweg abzurufen
Seit dem 27. April zeigt Claude keine Preise mehr für Amazon, Best Buy, Newegg oder B&H Photo an. Walmart ist der einzige Händler, der noch Preise anzeigt.