1.2B Modelo Local Vence a 1T Nubes en Póker: La Agresión Supera al Conocimiento en Formato Todo o Nada

Un desarrollador ejecutó 6 LLMs en 5 torneos de Texas Hold'em en una MacBook de 16GB usando un framework personalizado (Hive). La alineación: Liquid lfm2.5 (1.2B, LM Studio, ~5s/decisión), Qwen3 (1.7B, LM Studio, ~2.5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) y Kimi K2 (~1T, Fireworks). Los modelos locales se ejecutaron secuencialmente debido a las limitaciones de RAM.
Resultados
- Torneo 1: Qwen (1.7B local)
- Torneo 2: MiniMax (230B cloud)
- Torneo 3: Liquid (1.2B local)
- Torneo 4: Kimi (~1T cloud)
- Torneo 5: Liquid (1.2B local)
La ejecución 3 destacó la dinámica: Liquid jugó 6 manos con 19 subidas y 0 retiros, convirtiendo un stack inicial de $1M en $5.98M. Mientras tanto, GPT-OSS (120B) ejecutó 0 subidas y 5 retiros en 6 manos, quedándose ciego. El formato (25 manos, ciegas 5K/10K + ante 1K) es efectivamente de shove-or-fold, recompensando la agresividad sobre la habilidad teórica del póker.
Conclusión Clave
Liquid no reconoce las manos malas, por lo que sube todo. Contra oponentes que se retiran demasiado, esto genera dinero. El autor señala: "No afirmo que los modelos pequeños sean más inteligentes en el póker. En este formato específico, no saber cuándo retirarse es una ventaja." Los modelos más grandes 'entienden' el póker lo suficiente para retirarse con manos débiles, pero en un torneo de stack corto, la paciencia se castiga.
Próximos Pasos
Se planean torneos más largos (100+ manos, ciegas más bajas) donde la lectura de manos importa. El framework admite personajes personalizados (rasgos de personalidad, tolerancia al riesgo, miedos). Se aceptan solicitudes para Mistral, Llama, Gemma 3. El código y los JSON completos de resultados están en GitHub: https://github.com/chiruu12/Hive (hive-arena/ para el ejecutor, tournaments/results/ para los datos).
📖 Lee la fuente original: r/LocalLLaMA
👀 Ver también

Los agentes de IA necesitan primitivas de reversión, no solo autonomía
Un desarrollador argumenta que los frameworks de agentes deben adoptar conceptos de bases de datos como ACID, sagas y acciones compensatorias para manejar fallos parciales, en lugar de depender de que los LLMs "lo resuelvan".

Cuando el Código se Vuelve Barato, la Comprensión se Vuelve Cara
Markus Poppastring establece paralelismos entre la ola de subcontratación de los 2000 y la generación de código mediante IA actual: el costo pasa de escribir código a entenderlo, y con la IA, la intención puede no existir en ningún lado.

Comparación de Costos de API de LLM para 2026: Autoalojamiento vs. Proveedores en la Nube
Un usuario de Reddit comparó los costos de las API de LLM para 1 millón de tokens/día entre 11 proveedores, revelando que el autoalojamiento con vLLM cuesta aproximadamente $0.05 por 1 millón de tokens, mientras que GPT-4o cuesta $5/$15 por tokens de entrada/salida.

Los costos de la API de OpenClaw alcanzaron $275 en 5.5 horas, lo que se proyecta en más de $200K anuales.
Un desarrollador que probó OpenClaw con la API GPT-5.4 de OpenAI gastó $275 entre las 11 a.m. y las 4:30 p.m., lo que anualizado supera los $200,000 por año a esa tasa de uso.