1.2B Modelo Local Vence a 1T Nubes en Póker: La Agresión Supera al Conocimiento en Formato Todo o Nada

✍️ OpenClawRadar📅 Publicado: 19 de mayo de 2026🔗 Source

Un desarrollador ejecutó 6 LLMs en 5 torneos de Texas Hold'em en una MacBook de 16GB usando un framework personalizado (Hive). La alineación: Liquid lfm2.5 (1.2B, LM Studio, ~5s/decisión), Qwen3 (1.7B, LM Studio, ~2.5 min), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) y Kimi K2 (~1T, Fireworks). Los modelos locales se ejecutaron secuencialmente debido a las limitaciones de RAM.

Resultados

Torneo 1: Qwen (1.7B local)
Torneo 2: MiniMax (230B cloud)
Torneo 3: Liquid (1.2B local)
Torneo 4: Kimi (~1T cloud)
Torneo 5: Liquid (1.2B local)

La ejecución 3 destacó la dinámica: Liquid jugó 6 manos con 19 subidas y 0 retiros, convirtiendo un stack inicial de $1M en $5.98M. Mientras tanto, GPT-OSS (120B) ejecutó 0 subidas y 5 retiros en 6 manos, quedándose ciego. El formato (25 manos, ciegas 5K/10K + ante 1K) es efectivamente de shove-or-fold, recompensando la agresividad sobre la habilidad teórica del póker.

Conclusión Clave

Liquid no reconoce las manos malas, por lo que sube todo. Contra oponentes que se retiran demasiado, esto genera dinero. El autor señala: "No afirmo que los modelos pequeños sean más inteligentes en el póker. En este formato específico, no saber cuándo retirarse es una ventaja." Los modelos más grandes 'entienden' el póker lo suficiente para retirarse con manos débiles, pero en un torneo de stack corto, la paciencia se castiga.

Próximos Pasos

Se planean torneos más largos (100+ manos, ciegas más bajas) donde la lectura de manos importa. El framework admite personajes personalizados (rasgos de personalidad, tolerancia al riesgo, miedos). Se aceptan solicitudes para Mistral, Llama, Gemma 3. El código y los JSON completos de resultados están en GitHub: https://github.com/chiruu12/Hive (hive-arena/ para el ejecutor, tournaments/results/ para los datos).

📖 Lee la fuente original: r/LocalLLaMA

👀 Ver también

Noticias

La Nueva Lanzamiento de OpenClaw: ¿Un Simple Cambio de Nombre o una Gran Actualización?

OpenClaw, anteriormente conocido como ClawDBot, ha pasado por una transformación. Sigue leyendo para descubrir si este cambio es meramente cosmético o si introduce nuevas características y una mayor estabilidad.

8 feb 2026, 13:45 UTC

OpenClawRadar

Noticias

Los modelos de código abierto de menos de 100 GB no pueden superar a Claude Haiku en pruebas de programación.

Una comparación de modelos de peso abierto en los puntos de referencia LiveBench y Arena Code/WebDev muestra que ningún modelo por debajo de 100 GB se acerca al rendimiento de Claude Haiku 4.5. El competidor más cercano es Minimax M2.5 a 136 GB, que aproximadamente iguala el rendimiento de Haiku.

26 feb 2026, 16:45 UTC

OpenClawRadar

Noticias

Xiaomi libera código fuente de MiMo-V2.5-Pro: se acerca a Claude Opus 4.6 en pruebas de codificación

Xiaomi lanzó MiMo-V2.5-Pro, un modelo de codificación de código abierto que obtuvo 233/233 en un proyecto de compilador universitario, construyó un editor de video de forma autónoma y se ubica dentro del 1% de Claude Opus 4.6 en SWE-Bench y Terminal-Bench.

28 abr 2026, 20:16 UTC

OpenClawRadar

Noticias

El Método Basado en Gramática Iguala o Supera a la IA en el Análisis de Autoría

Un estudio de la Universidad de Mánchester encontró que LambdaG, un método de análisis de autoría basado en gramática, igualó o superó a los principales sistemas de IA en la mayoría de los conjuntos de datos de prueba, ofreciendo mayor transparencia y menor costo computacional.

17 abr 2026, 23:45 UTC

OpenClawRadar