Modelo Local de 1,2B Supera Nuvens de 1T no Pôquer: Agressão Supera Conhecimento no Formato Shove-or-Fold

Um desenvolvedor executou 6 LLMs em 5 torneios de Texas Hold'em em um MacBook de 16GB usando uma estrutura personalizada (Hive). A escalação: Liquid lfm2.5 (1,2B, LM Studio, ~5s/decidir), Qwen3 (1,7B, LM Studio, ~2,5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) e Kimi K2 (~1T, Fireworks). Os locais rodaram sequencialmente devido aos limites de RAM.
Resultados
- Torneio 1: Qwen (1,7B local)
- Torneio 2: MiniMax (230B nuvem)
- Torneio 3: Liquid (1,2B local)
- Torneio 4: Kimi (~1T nuvem)
- Torneio 5: Liquid (1,2B local)
A execução 3 destacou a dinâmica: Liquid jogou 6 mãos com 19 aumentos e 0 desistências, transformando uma pilha inicial de $1M em $5,98M. Enquanto isso, GPT-OSS (120B) executou 0 aumentos e 5 desistências em 6 mãos, sendo eliminado pelos blinds. O formato (25 mãos, blinds 5K/10K + ante 1K) é efetivamente de "all-in ou desistir", recompensando agressão sobre habilidade teórica de pôquer.
Insight Principal
Liquid não reconhece mãos ruins, então aumenta tudo. Contra oponentes que desistem com frequência, isso gera dinheiro. O autor observa: "Não estou afirmando que modelos pequenos são mais inteligentes no pôquer. Neste formato específico, não saber quando desistir é uma vantagem." Modelos maiores 'entendem' pôquer o suficiente para desistir de mãos fracas, mas em um torneio de stack curto, paciência é punida.
Próximos Passos
Os planos incluem torneios mais longos (100+ mãos, blinds menores) onde a leitura de mãos importa. A estrutura suporta personas personalizadas (traços de personalidade, tolerância a risco, medos). Pedidos por Mistral, Llama, Gemma 3 são bem-vindos. Código e JSONs completos dos resultados estão no GitHub: https://github.com/chiruu12/Hive (hive-arena/ para executor, tournaments/results/ para dados).
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

Claude Code v2.1.133: reversão de worktree.baseRef, caminhos de sandbox, correção de proxy para MCP OAuth
Anthropic lança a versão v2.1.133 do Claude Code CLI com uma nova configuração worktree.baseRef padrão para fresh (ramo a partir de origin/default), sandbox.bwrapPath e sandbox.socatPath para binários customizados de bubblewrap/socat, correção de proxy/mTLS para o fluxo OAuth do MCP e várias correções de bugs.

Agente de IA Gerencia Loja Física com Funcionários Humanos
A Andon Labs implantou uma IA chamada Luna para gerenciar um contrato de locação comercial de 3 anos em São Francisco. A Luna contratou funcionários humanos, gerenciou prestadores de serviços e tomou todas as decisões operacionais para o Andon Market.

Startups Relatam Gastar Mais com Computação de IA do que com Salários Humanos
Startups de IA, como a Swan AI, relatam contas mensais de computação de IA superiores a US$ 113 mil, com CEOs descrevendo isso como 'tokenmaxxing', onde os gastos com IA substituem os orçamentos tradicionais de pessoal.

Codex Conversa: O Sucessor do OpenClaw na Automação de IA
O Codex agora pode se comunicar consigo mesmo, anunciando uma nova era na automação impulsionada por IA e substituindo efetivamente o OpenClaw, o antigo líder.