1,2 млрд vs 1 трлн: как маленькая модель обыграла гигантов в покере

Разработчик запустил 6 LLM в 5 турнирах по Техасскому Холдему на MacBook с 16 ГБ ОЗУ, используя собственную платформу (Hive). Состав: Liquid lfm2.5 (1,2B, LM Studio, ~5 сек/ход), Qwen3 (1,7B, LM Studio, ~2,5 мин), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) и Kimi K2 (~1T, Fireworks). Локальные модели запускались последовательно из-за ограничений ОЗУ.

Результаты

Турнир 1: Qwen (1,7B локально)
Турнир 2: MiniMax (230B облако)
Турнир 3: Liquid (1,2B локально)
Турнир 4: Kimi (~1T облако)
Турнир 5: Liquid (1,2B локально)

Третий заход показал динамику: Liquid сыграл 6 раздач с 19 рейзами и 0 фолдов, превратив стартовый стек в $1 млн в $5,98 млн. Тем временем GPT-OSS (120B) выполнил 0 рейзов и 5 фолдов за 6 раздач, проиграв на блайндах. Формат (25 раздач, блайнды 5K/10K + анте 1K) по сути является шови или фолд, где агрессия вознаграждается больше, чем теоретическое мастерство покера.

Ключевая мысль

Liquid не распознаёт плохие руки, поэтому рейзит всё подряд. Против оппонентов, которые слишком часто сбрасывают, это приносит деньги. Автор отмечает: «Я не утверждаю, что маленькие модели умнее в покере. В этом конкретном формате незнание того, когда сбрасывать, является преимуществом». Крупные модели «понимают» покер настолько, чтобы сбрасывать слабые руки, но в турнире с короткими стеками терпение наказывается.

Что дальше

Планируются более длинные турниры (100+ раздач, низкие блайнды), где будет важно чтение рук. Платформа поддерживает пользовательские персонажи (черты личности, толерантность к риску, страхи). Принимаются запросы на Mistral, Llama, Gemma 3. Код и полные JSON-файлы с результатами на GitHub: https://github.com/chiruu12/Hive (папка hive-arena/ для запуска, tournaments/results/ для данных).

📖 Читать полный источник: r/LocalLLaMA

1,2 млрд локальная модель превзошла 1 трлн облачных в покере: агрессия побеждает знания в формате "ол-ин или пас"

Результаты

Ключевая мысль

Что дальше

👀 Смотрите также

Открытый стандарт записей выполнения агентов: аргументы в пользу единой схемы журнала

Выпуск OpenClaw 2026.3.2: Секреты для продакшена, инструмент для PDF и более безопасные настройки по умолчанию.

Клоду не хватает инженерной памяти: инцидент на дежурстве выявил отсутствие эпизодического воспроизведения для отладки

CTO Netlify Дана Лоусон: Написание кода больше не является работой