1,2B Lokales Modell schlägt 1T Clouds beim Poker: Aggression übertrumpft Wissen im Shove-or-Fold-Format

Ein Entwickler ließ 6 LLMs durch 5 Texas Hold'em-Turniere auf einem 16GB MacBook mit einem benutzerdefinierten Framework laufen (Hive). Die Aufstellung: Liquid lfm2.5 (1,2B, LM Studio, ~5s/Entscheidung), Qwen3 (1,7B, LM Studio, ~2,5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) und Kimi K2 (~1T, Fireworks). Lokale Modelle liefen aufgrund von RAM-Begrenzungen nacheinander.
Ergebnisse
- Turnier 1: Qwen (1,7B lokal)
- Turnier 2: MiniMax (230B Cloud)
- Turnier 3: Liquid (1,2B lokal)
- Turnier 4: Kimi (~1T Cloud)
- Turnier 5: Liquid (1,2B lokal)
Durchlauf 3 verdeutlichte die Dynamik: Liquid spielte 6 Hände mit 19 Erhöhungen und 0 Folds und verwandelte einen Startstack von 1 Mio. $ in 5,98 Mio. $. GPT-OSS (120B) führte hingegen 0 Erhöhungen und 5 Folds in 6 Händen aus und wurde durch die Blinds eliminiert. Das Format (25 Hände, 5K/10K Blinds + 1K Ante) ist effektiv ein Shove-or-Fold-Format, das Aggression über theoretisches Pokerkönnen belohnt.
Wichtige Erkenntnis
Liquid erkennt keine schlechten Hände und erhöht daher alles. Gegen Gegner, die zu oft folden, bringt das Geld. Der Autor merkt an: „Ich behaupte nicht, dass kleine Modelle klüger beim Pokern sind. In diesem speziellen Format ist es von Vorteil, nicht zu wissen, wann man folden sollte.“ Größere Modelle ‚verstehen‘ Poker genug, um schwache Hände zu folden, aber in einem Short-Stack-Turnier wird Geduld bestraft.
Was kommt als Nächstes
Geplant sind längere Turniere (100+ Hände, niedrigere Blinds), bei denen das Lesen von Händen wichtig ist. Das Framework unterstützt benutzerdefinierte Persönlichkeiten (Persönlichkeitsmerkmale, Risikobereitschaft, Ängste). Anfragen für Mistral, Llama, Gemma 3 sind willkommen. Code und vollständige Ergebnis-JSONs sind auf GitHub: https://github.com/chiruu12/Hive (hive-arena/ für den Runner, tournaments/results/ für die Daten).
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Claude.ai, API und Claude Code verzeichnen erhöhte Fehlerraten
Claude.ai, die Claude API und Claude Code verzeichnen derzeit erhöhte Fehlerraten, wobei die Web-Oberfläche und die Entwicklerkonsole ausgefallen sind. Die Anmeldung bei Claude Code über Claude.ai funktioniert nicht, obwohl bereits angemeldete Nutzer es weiterhin verwenden können.

GLM-5.1 veröffentlicht mit Programmierleistung auf dem Niveau von Claude Opus 4.5
Zhipu AIs GLM-5.1-Modell ist jetzt für alle Coding Plan-Nutzer verfügbar und erreicht 77,8 Punkte auf SWE-bench-Verified und 56,2 Punkte auf Terminal Bench 2.0. Das Modell verfügt über ein 200K-Kontextfenster, eine maximale Ausgabe von 128K und 744B Parameter mit 40B aktivierten.

Neun häufige Fehlermuster bei KI-Codierungsagenten und Validierung vor der Ausführung
Ein Reddit-Beitrag identifiziert neun spezifische Fehlermuster, die häufig dazu führen, dass KI-Codierungsagenten versagen, darunter unvollständige Enum-Behandlung, stille Nullpfade und halluzinierte Importe. Der Autor berichtet, dass die Implementierung einer Validierungsphase vor der Ausführung etwa 70 % dieser Fehler abfängt.

SDNY-Urteil verweigert Anwaltsgeheimnis für KI-Chat-Kommunikationen
Richter Rakoff entschied in U.S. v. Heppner, dass Kommunikationen mit KI-Tools wie ChatGPT nicht unter den Anwaltsgeheimnisschutz fallen, was die Offenlegung aller KI-generierten juristischen Arbeiten erfordert. Das Gericht stellte fest, dass KI die für den Schutz erforderliche menschliche Vertraulichkeit fehlt.