1,2B Lokales Modell schlägt 1T Clouds beim Poker: Aggression übertrumpft Wissen im Shove-or-Fold-Format

✍️ OpenClawRadar📅 Veröffentlicht: 19. Mai 2026🔗 Source

Ein Entwickler ließ 6 LLMs durch 5 Texas Hold'em-Turniere auf einem 16GB MacBook mit einem benutzerdefinierten Framework laufen (Hive). Die Aufstellung: Liquid lfm2.5 (1,2B, LM Studio, ~5s/Entscheidung), Qwen3 (1,7B, LM Studio, ~2,5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) und Kimi K2 (~1T, Fireworks). Lokale Modelle liefen aufgrund von RAM-Begrenzungen nacheinander.

Ergebnisse

Turnier 1: Qwen (1,7B lokal)
Turnier 2: MiniMax (230B Cloud)
Turnier 3: Liquid (1,2B lokal)
Turnier 4: Kimi (~1T Cloud)
Turnier 5: Liquid (1,2B lokal)

Durchlauf 3 verdeutlichte die Dynamik: Liquid spielte 6 Hände mit 19 Erhöhungen und 0 Folds und verwandelte einen Startstack von 1 Mio. $ in 5,98 Mio. $. GPT-OSS (120B) führte hingegen 0 Erhöhungen und 5 Folds in 6 Händen aus und wurde durch die Blinds eliminiert. Das Format (25 Hände, 5K/10K Blinds + 1K Ante) ist effektiv ein Shove-or-Fold-Format, das Aggression über theoretisches Pokerkönnen belohnt.

Wichtige Erkenntnis

Liquid erkennt keine schlechten Hände und erhöht daher alles. Gegen Gegner, die zu oft folden, bringt das Geld. Der Autor merkt an: „Ich behaupte nicht, dass kleine Modelle klüger beim Pokern sind. In diesem speziellen Format ist es von Vorteil, nicht zu wissen, wann man folden sollte.“ Größere Modelle ‚verstehen‘ Poker genug, um schwache Hände zu folden, aber in einem Short-Stack-Turnier wird Geduld bestraft.

Was kommt als Nächstes

Geplant sind längere Turniere (100+ Hände, niedrigere Blinds), bei denen das Lesen von Händen wichtig ist. Das Framework unterstützt benutzerdefinierte Persönlichkeiten (Persönlichkeitsmerkmale, Risikobereitschaft, Ängste). Anfragen für Mistral, Llama, Gemma 3 sind willkommen. Code und vollständige Ergebnis-JSONs sind auf GitHub: https://github.com/chiruu12/Hive (hive-arena/ für den Runner, tournaments/results/ für die Daten).

📖 Lies die vollständige Quelle: r/LocalLLaMA

👀 Siehe auch

Nachrichten

KI-Tools erhöhen die Arbeitsbelastung im Ingenieurwesen und verändern berufliche Rollen

Eine Studie der Harvard Business Review vom Februar 2026 ergab, dass 83 % der Arbeitnehmer eine erhöhte Arbeitsbelastung durch KI-Tools meldeten, wobei 62 % Burnout erlebten. Der Artikel beschreibt, wie KI Ingenieursrollen vom Schreiben von Code zur Überprüfung von KI-generiertem Code verschoben hat.

1. März 2026, 18:45 UTC

OpenClawRadar

Nachrichten

Claude Opus 4.7 leidet unter erhöhten Fehlerraten — Status-Update

Ein automatischer Status-Update meldet erhöhte Fehler bei Claude Opus 4.7. Verfolgen Sie den Fortschritt auf der Incident-Seite und im Community-Megathread.

2. Juni 2026, 12:18 UTC

OpenClawRadar

Nachrichten

KI-Anbieterbindung eskaliert: Modellwechsel kostet jetzt mehr als die meisten erwartet haben

Eine Umfrage von Zapier unter 542 US-Führungskräften zeigt, dass 90 % glaubten, innerhalb von 4 Wochen den KI-Anbieter wechseln zu können, aber 58 % der tatsächlichen Migrationen schlugen fehl oder dauerten viel länger. In der Zwischenzeit erhöhte OpenAI die Preise für GPT-5.2-Eingabetoken von 1,25 $ auf 5,75 $, und Anthropic führte für Claude Enterprise eine dynamische Preisgestaltung ein, die die Kosten für Vielnutzer potenziell verdoppeln oder verdreifachen könnte.

28. Apr. 2026, 14:17 UTC

OpenClawRadar

Nachrichten

Blocks 4.000 Stellenstreichungen wecken Bedenken wegen "AI-Washing"

Block kündigte 4.000 Stellenstreichungen an, die Verdacht auf AI-Washing erweckt haben. Die Geschichte erzielte 10 Punkte und 3 Kommentare auf Hacker News.

2. März 2026, 21:45 UTC

OpenClawRadar