1,2 млрд локальная модель превзошла 1 трлн облачных в покере: агрессия побеждает знания в формате "ол-ин или пас"

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source
1,2 млрд локальная модель превзошла 1 трлн облачных в покере: агрессия побеждает знания в формате "ол-ин или пас"
Ad

Разработчик запустил 6 LLM в 5 турнирах по Техасскому Холдему на MacBook с 16 ГБ ОЗУ, используя собственную платформу (Hive). Состав: Liquid lfm2.5 (1,2B, LM Studio, ~5 сек/ход), Qwen3 (1,7B, LM Studio, ~2,5 мин), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks) и Kimi K2 (~1T, Fireworks). Локальные модели запускались последовательно из-за ограничений ОЗУ.

Результаты

  • Турнир 1: Qwen (1,7B локально)
  • Турнир 2: MiniMax (230B облако)
  • Турнир 3: Liquid (1,2B локально)
  • Турнир 4: Kimi (~1T облако)
  • Турнир 5: Liquid (1,2B локально)

Третий заход показал динамику: Liquid сыграл 6 раздач с 19 рейзами и 0 фолдов, превратив стартовый стек в $1 млн в $5,98 млн. Тем временем GPT-OSS (120B) выполнил 0 рейзов и 5 фолдов за 6 раздач, проиграв на блайндах. Формат (25 раздач, блайнды 5K/10K + анте 1K) по сути является шови или фолд, где агрессия вознаграждается больше, чем теоретическое мастерство покера.

Ad

Ключевая мысль

Liquid не распознаёт плохие руки, поэтому рейзит всё подряд. Против оппонентов, которые слишком часто сбрасывают, это приносит деньги. Автор отмечает: «Я не утверждаю, что маленькие модели умнее в покере. В этом конкретном формате незнание того, когда сбрасывать, является преимуществом». Крупные модели «понимают» покер настолько, чтобы сбрасывать слабые руки, но в турнире с короткими стеками терпение наказывается.

Что дальше

Планируются более длинные турниры (100+ раздач, низкие блайнды), где будет важно чтение рук. Платформа поддерживает пользовательские персонажи (черты личности, толерантность к риску, страхи). Принимаются запросы на Mistral, Llama, Gemma 3. Код и полные JSON-файлы с результатами на GitHub: https://github.com/chiruu12/Hive (папка hive-arena/ для запуска, tournaments/results/ для данных).

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

OpenClaw проводит свое первое AMA: Взгляды на AI-кодирующих агентов
Новости

OpenClaw проводит свое первое AMA: Взгляды на AI-кодирующих агентов

OpenClaw, известная фигура в области AI-кодирования, провела свою первую AMA-сессию на Reddit. Обсуждение прояснило ее воздействие, планы на будущее и вызовы.

OpenClawRadar
Эволюция архитектуры KV-кэша: от GPT-2 до Mamba
Новости

Эволюция архитектуры KV-кэша: от GPT-2 до Mamba

Анализ затрат памяти на KV-кэш показывает, что GPT-2 использовал 300 КБайт/токен, Llama 3 сократил этот показатель до 128 КБайт/токен с помощью группового запросного внимания, а DeepSeek V3 достиг 68,6 КБайт/токен с использованием многоголового латентного внимания. Mamba/SSM полностью устраняют KV-кэш за счёт фиксированного размера скрытых состояний.

OpenClawRadar
Anthropic отключает OAuth-токены Claude Code для OpenClaw, требуя отдельной оплаты.
Новости

Anthropic отключает OAuth-токены Claude Code для OpenClaw, требуя отдельной оплаты.

Anthropic удаляет возможность использования токенов Claude Code CLI или долгоживущих OAuth-токенов со сторонними оболочками, такими как OpenClaw, начиная с 4 апреля. Пользователям потребуется включить дополнительное использование, которое будет оплачиваться отдельно от их подписки.

OpenClawRadar
Claude-Code версии 2.1.92 добавляет мастер настройки Bedrock, детализацию затрат и несколько исправлений.
Новости

Claude-Code версии 2.1.92 добавляет мастер настройки Bedrock, детализацию затрат и несколько исправлений.

Claude-Code v2.1.92 представляет интерактивный мастер настройки AWS Bedrock, детализацию затрат по моделям для подписчиков, а также исправления ошибок, связанных с созданием суб-агентов, хуками промптов и проблемами отображения в терминале. В релизе также удалены команды /tag и /vim.

OpenClawRadar