Modèle local 1,2B bat 1T de paramètres au poker

Un développeur a fait jouer 6 LLM dans 5 tournois de Texas Hold'em sur un MacBook de 16 Go en utilisant un framework personnalisé (Hive). Les participants : Liquid lfm2.5 (1,2B, LM Studio, ~5s/décision), Qwen3 (1,7B, LM Studio, ~2,5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) et Kimi K2 (~1T, Fireworks). Les modèles locaux ont joué séquentiellement en raison des limites de RAM.

Résultats

Tournoi 1 : Qwen (1,7B local)
Tournoi 2 : MiniMax (230B cloud)
Tournoi 3 : Liquid (1,2B local)
Tournoi 4 : Kimi (~1T cloud)
Tournoi 5 : Liquid (1,2B local)

La partie 3 a illustré la dynamique : Liquid a joué 6 mains avec 19 relances et 0 abandons, transformant un tapis de départ de 1M$ en 5,98M$. Pendant ce temps, GPT-OSS (120B) a effectué 0 relances et 5 abandons en 6 mains, se faisant éliminer par les blinds. Le format (25 mains, blinds 5K/10K + ante 1K) est essentiellement un « tapis ou rien », récompensant l'agressivité plutôt que la compétence théorique au poker.

Point clé

Liquid ne reconnaît pas les mauvaises mains, donc il relance tout. Contre des adversaires qui se couchent trop souvent, cela rapporte gros. L'auteur note : « Je ne prétends pas que les petits modèles sont plus intelligents au poker. Dans ce format spécifique, ne pas savoir quand se coucher est un avantage. » Les modèles plus grands « comprennent » assez le poker pour se coucher sur des mains faibles, mais dans un tournoi à tapis court, la patience est punie.

Prochaines étapes

Prévoit des tournois plus longs (100+ mains, blinds plus basses) où la lecture des mains compte. Le framework prend en charge des personnalités personnalisées (traits de personnalité, tolérance au risque, peurs). Les demandes pour Mistral, Llama, Gemma 3 sont les bienvenues. Le code et les JSON complets des résultats sont sur GitHub : https://github.com/chiruu12/Hive (hive-arena/ pour l'exécuteur, tournaments/results/ pour les données).

📖 Lire la source complète : r/LocalLLaMA

1,2B de modèle local bat 1T de clouds au poker : l'agression l'emporte sur la connaissance en format push-or-fold

Résultats

Point clé

Prochaines étapes

👀 See Also

Claude Code retiré du plan Pro d'Anthropic, désormais uniquement disponible sur les plans Max

Windows 11 Mise à jour 2026 : Repositionnement de la barre des tâches, Copilot réduit, Améliorations de l'Explorateur de fichiers

Kimi K2.7-Code : Modèle de codage open source avec une meilleure efficacité des tokens

Claude Code v2.1.74 Mises à jour du Prompt Système : Règles de Sécurité, Sélection de Mémoire et Nouvelles Compétences