1,2B de modèle local bat 1T de clouds au poker : l'agression l'emporte sur la connaissance en format push-or-fold

✍️ OpenClawRadar📅 Publié: May 19, 2026🔗 Source
1,2B de modèle local bat 1T de clouds au poker : l'agression l'emporte sur la connaissance en format push-or-fold
Ad

Un développeur a fait jouer 6 LLM dans 5 tournois de Texas Hold'em sur un MacBook de 16 Go en utilisant un framework personnalisé (Hive). Les participants : Liquid lfm2.5 (1,2B, LM Studio, ~5s/décision), Qwen3 (1,7B, LM Studio, ~2,5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) et Kimi K2 (~1T, Fireworks). Les modèles locaux ont joué séquentiellement en raison des limites de RAM.

Résultats

  • Tournoi 1 : Qwen (1,7B local)
  • Tournoi 2 : MiniMax (230B cloud)
  • Tournoi 3 : Liquid (1,2B local)
  • Tournoi 4 : Kimi (~1T cloud)
  • Tournoi 5 : Liquid (1,2B local)

La partie 3 a illustré la dynamique : Liquid a joué 6 mains avec 19 relances et 0 abandons, transformant un tapis de départ de 1M$ en 5,98M$. Pendant ce temps, GPT-OSS (120B) a effectué 0 relances et 5 abandons en 6 mains, se faisant éliminer par les blinds. Le format (25 mains, blinds 5K/10K + ante 1K) est essentiellement un « tapis ou rien », récompensant l'agressivité plutôt que la compétence théorique au poker.

Ad

Point clé

Liquid ne reconnaît pas les mauvaises mains, donc il relance tout. Contre des adversaires qui se couchent trop souvent, cela rapporte gros. L'auteur note : « Je ne prétends pas que les petits modèles sont plus intelligents au poker. Dans ce format spécifique, ne pas savoir quand se coucher est un avantage. » Les modèles plus grands « comprennent » assez le poker pour se coucher sur des mains faibles, mais dans un tournoi à tapis court, la patience est punie.

Prochaines étapes

Prévoit des tournois plus longs (100+ mains, blinds plus basses) où la lecture des mains compte. Le framework prend en charge des personnalités personnalisées (traits de personnalité, tolérance au risque, peurs). Les demandes pour Mistral, Llama, Gemma 3 sont les bienvenues. Le code et les JSON complets des résultats sont sur GitHub : https://github.com/chiruu12/Hive (hive-arena/ pour l'exécuteur, tournaments/results/ pour les données).

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Résultats de recherche sur la fiabilité des agents d'IA et les modèles de développement
News

Résultats de recherche sur la fiabilité des agents d'IA et les modèles de développement

Une session de recherche collaborative avec Claude Opus a analysé 15 articles sur les agents d'IA, révélant des problèmes de fiabilité quantifiés : les agents produisent 2 à 4 séquences d'actions différentes sur 10 exécutions, avec 69 % des divergences survenant dès la première décision. Les agents auto-améliorants ont montré des taux de refus de sécurité chutant de 99,4 % à 54,4 % grâce à leur propre apprentissage.

OpenClawRadar
Accord de calcul Anthropic-xAI : Au-delà des limites de Claude Code
News

Accord de calcul Anthropic-xAI : Au-delà des limites de Claude Code

Anthropic a signé un accord de 300 MW / 220 000 GPU avec son concurrent xAI. Cela signale un resserrement de l'offre de GPU et un partage structurel des ressources de calcul entre laboratoires, avec des implications pour la tarification de l'inférence et le routage multi-fournisseurs.

OpenClawRadar
Anthropic sépare le contrôle à distance des agents en Dispatch et Contrôle à distance, avec des problèmes de fiabilité
News

Anthropic sépare le contrôle à distance des agents en Dispatch et Contrôle à distance, avec des problèmes de fiabilité

Anthropic a mis en œuvre la capacité principale d'OpenClaw sous la forme de deux produits distincts : Dispatch pour les utilisateurs de Cowork et Remote Control pour les développeurs de Claude Code. Les deux souffrent de problèmes de fiabilité, notamment des déconnexions mobiles après environ 10 heures.

OpenClawRadar
Waymo lance des opérations entièrement autonomes avec son conducteur de 6ᵉ génération
News

Waymo lance des opérations entièrement autonomes avec son conducteur de 6ᵉ génération

Le conducteur de 6e génération de Waymo commence ses opérations entièrement autonomes, avec une suite de détection multimodale et des imageurs nouvelle génération de 17 mégapixels.

OpenClawRadar