ポーカーで12億のローカルモデルが1兆のクラウドに勝利:シャブ・オア・フォールド形式で攻撃性が知識を凌駕

✍️ OpenClawRadar📅 公開日: May 19, 2026🔗 Source
ポーカーで12億のローカルモデルが1兆のクラウドに勝利:シャブ・オア・フォールド形式で攻撃性が知識を凌駕
Ad

ある開発者が、16GB MacBook上でカスタムフレームワーク(Hive)を使用して、5回のテキサスホールデムトーナメントに6つのLLMを参加させました。参加モデルは、Liquid lfm2.5(1.2B、LM Studio、約5秒/決定)、Qwen3(1.7B、LM Studio、約2.5分)、Claude Haiku 4.5、GPT-OSS(120B、Fireworks)、MiniMax M2(230B、Fireworks)、Kimi K2(約1T、Fireworks)です。ローカルモデルはRAMの制限により逐次的に実行されました。

結果

  • トーナメント1: Qwen(1.7Bローカル)
  • トーナメント2: MiniMax(230Bクラウド)
  • トーナメント3: Liquid(1.2Bローカル)
  • トーナメント4: Kimi(約1Tクラウド)
  • トーナメント5: Liquid(1.2Bローカル)

ラウンド3でそのダイナミクスが顕著に現れました。Liquidは6ハンドで19回のレイズと0回のフォールドを実行し、$1Mのスタートスタックを$5.98Mに増やしました。一方、GPT-OSS(120B)は6ハンドで0回のレイズと5回のフォールドを実行し、ブラインドアウトされました。この形式(25ハンド、ブラインド5K/10K+アンティ1K)は実質的にオールインかフォールドの状況であり、理論的なポーカースキルよりも積極性が報われます。

重要な洞察

Liquidは悪いハンドを認識しないため、すべてにレイズします。相手がフォールドしすぎる場合、これは大金を生みます。著者は次のように述べています:「小さなモデルがポーカーで賢いと言っているわけではありません。この特定の形式では、いつフォールドするかを知らないことがアドバンテージになります。」 より大きなモデルは弱いハンドをフォールドする『理解』を持っていますが、ショートスタックトーナメントでは忍耐が罰せられます。

今後の予定

ハンドリーディングが重要となる長いトーナメント(100ハンド以上、低いブラインド)を計画しています。フレームワークはカスタムペルソナ(性格特性、リスク許容度、恐怖など)をサポートしています。Mistral、Llama、Gemma 3のリクエストも�迎します。コードと完全な結果JSONはGitHubにあります:https://github.com/chiruu12/Hive(hive-arena/はランナー、tournaments/results/はデータ)。

📖 出典全文はこちら: r/LocalLLaMA

Ad

👀 See Also

Anthropicは、リモートエージェント制御を「ディスパッチ」と「リモートコントロール」に分割し、信頼性の問題を抱えている
News

Anthropicは、リモートエージェント制御を「ディスパッチ」と「リモートコントロール」に分割し、信頼性の問題を抱えている

AnthropicはOpenClawのコア機能を2つの別々の製品として実装しました:Coworkユーザー向けのDispatchと、Claude Code開発者向けのRemote Controlです。どちらも約10時間後のモバイル接続切断を含む信頼性の問題を抱えています。

OpenClawRadar
Googleトレンドによると、2026年初頭にClaude Codeへの検索関心が高まっていることが示されています。
News

Googleトレンドによると、2026年初頭にClaude Codeへの検索関心が高まっていることが示されています。

Redditユーザーが、過去1年間の5つのコーディングツール(vibe coding、Cursor、Claude Code、Codex、Replit)に関するGoogle Trendsの検索関心度を比較しました。データでは、2026年初頭のClaude Codeの急上昇が際立っています。

OpenClawRadar
Claudeデイリーダイジェスト:/dream機能リリース、利用制限への反発、アクセシビリティツール
News

Claudeデイリーダイジェスト:/dream機能リリース、利用制限への反発、アクセシビリティツール

AnthropicはClaudeのAuto Memoryシステム向けに/dream機能をリリースしましたが、コミュニティでは利用制限に関する不満が噴出しています。また、耳の不自由な開発者がClaude Code用のターミナルフラッシュ通知プラグインを構築しました。

OpenClawRadar
ベンチマークによると、スマートフォンから家庭内チャットアプリケーションにおいて、小規模な4Bモデルが大規模LLMを上回る性能を示しています。
News

ベンチマークによると、スマートフォンから家庭内チャットアプリケーションにおいて、小規模な4Bモデルが大規模LLMを上回る性能を示しています。

電話から自宅チャットアプリケーション向けの8つのローカルLLMベンチマークでは、最小モデルであるGemma3:4Bが総合適合度スコア88.7で優勝しました。応答速度の速さと発熱負荷の低さにより、最大24Bパラメータの大規模モデルを上回る結果となりました。

OpenClawRadar