Modelo Local de 1,2B Supera Nuvens de 1T no Pôquer: Agressão Supera Conhecimento no Formato Shove-or-Fold

✍️ OpenClawRadar📅 Publicado: May 19, 2026🔗 Source

Um desenvolvedor executou 6 LLMs em 5 torneios de Texas Hold'em em um MacBook de 16GB usando uma estrutura personalizada (Hive). A escalação: Liquid lfm2.5 (1,2B, LM Studio, ~5s/decidir), Qwen3 (1,7B, LM Studio, ~2,5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) e Kimi K2 (~1T, Fireworks). Os locais rodaram sequencialmente devido aos limites de RAM.

Resultados

Torneio 1: Qwen (1,7B local)
Torneio 2: MiniMax (230B nuvem)
Torneio 3: Liquid (1,2B local)
Torneio 4: Kimi (~1T nuvem)
Torneio 5: Liquid (1,2B local)

A execução 3 destacou a dinâmica: Liquid jogou 6 mãos com 19 aumentos e 0 desistências, transformando uma pilha inicial de $1M em $5,98M. Enquanto isso, GPT-OSS (120B) executou 0 aumentos e 5 desistências em 6 mãos, sendo eliminado pelos blinds. O formato (25 mãos, blinds 5K/10K + ante 1K) é efetivamente de "all-in ou desistir", recompensando agressão sobre habilidade teórica de pôquer.

Insight Principal

Liquid não reconhece mãos ruins, então aumenta tudo. Contra oponentes que desistem com frequência, isso gera dinheiro. O autor observa: "Não estou afirmando que modelos pequenos são mais inteligentes no pôquer. Neste formato específico, não saber quando desistir é uma vantagem." Modelos maiores 'entendem' pôquer o suficiente para desistir de mãos fracas, mas em um torneio de stack curto, paciência é punida.

Próximos Passos

Os planos incluem torneios mais longos (100+ mãos, blinds menores) onde a leitura de mãos importa. A estrutura suporta personas personalizadas (traços de personalidade, tolerância a risco, medos). Pedidos por Mistral, Llama, Gemma 3 são bem-vindos. Código e JSONs completos dos resultados estão no GitHub: https://github.com/chiruu12/Hive (hive-arena/ para executor, tournaments/results/ para dados).

📖 Leia a fonte original: r/LocalLLaMA

👀 See Also

News

A Conformidade do Prompt do Sistema Claude se Degrada em Conversas Longas

Agentes baseados em Claude mostram conformidade degradada com prompts do sistema após 40-50 mensagens, com regras de formatação sendo ignoradas e restrições esquecidas. O problema surge porque os prompts do sistema competem com o histórico da conversa pelo peso de atenção na janela de contexto.

Mar 1, 2026, 09:45 AM UTC

OpenClawRadar

News

O redesign do painel do OpenClaw v2026.3.12 consolida os elementos da interface

O OpenClaw v2026.3.12 apresenta um redesign completo do painel que consolida visualizações modulares para chat, configuração, agentes e sessões, juntamente com paleta de comandos, abas inferiores para mobile, comandos de barra, pesquisa, exportação e mensagens fixadas em uma única interface.

Mar 13, 2026, 09:45 AM UTC

OpenClawRadar

News

Usuário do Reddit compara Claude Sonnet 4.6 e GPT-5 em 10 tarefas de blogagem

Um usuário do Reddit testou o Claude Sonnet 4.6 contra o GPT-5 usando prompts idênticos para 10 tarefas comuns de blogging, descobrindo que a diferença no tempo de edição foi a métrica mais útil.

Mar 13, 2026, 11:45 PM UTC

OpenClawRadar

News

Diagnosticando Desvio Operacional e Amnésia de Tarefas no OpenClaw com Gemini 2.5 Flash no Proxmox

Usuários do OpenClaw relatam problemas com fluxos de trabalho persistentes em uma VM Proxmox, citando desvio operacional e amnésia de tarefas. Apesar do desempenho estável em tarefas únicas, o modelo Gemini 2.5 Flash enfrenta dificuldades com automação e memória nessa configuração.

Feb 12, 2026, 11:45 PM UTC

OpenClawRadar