Тестирование Claude Sonnet на стратегической настольной игре: проблемы с соблюдением правил

Тестирование стратегических игр с Claude Sonnet
Разработчик на r/ClaudeAI протестировал Claude Sonnet, сыграв в OFMOS® Essential — запатентованную стратегическую настольную игру, где игроки управляют продуктовым портфелем на карте позиционирования. Тест включал ручную игру против модели, промпт за промптом.
Детали реализации
Разработчик создал структурированный системный промпт, содержащий:
- Полный свод правил OFMOS® Essential
- Текстовое представление игрового поля
- Определения действий
- Инструкции по подсчёту очков
- Указания по управлению ходами
После каждого хода Claude обновлял состояние поля и текущие очки на основе структурированной системы промптов.
Оценка производительности
Claude Sonnet продемонстрировал несколько способностей:
- Правильно понимал правила игры
- Излагал стратегические рассуждения во время игры
- Последовательно отслеживал очки на протяжении всей игры
Однако модель часто делала недопустимые ходы. Разработчик отметил, что это ожидаемое поведение, поскольку в системе отсутствовал слой ограниченной генерации ходов, требуя от модели самостоятельного соблюдения правил — задача, с которой она часто не справлялась.
Вопросы разработчика
Разработчик ищет мнение сообщества о подобных экспериментах с настольными или стратегическими играми, в частности спрашивая о:
- Опыте соблюдения правил в разных моделях
- Наблюдениях о стратегической глубине в игровом процессе ИИ
- Какие модели показали лучшие результаты в подобных сценариях
Такой тип тестирования полезен для разработчиков, работающих с ИИ-агентами для программирования, чтобы понять практические ограничения языковых моделей в средах, основанных на правилах, где требуется точное соблюдение ограничений.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Конвейер контента с использованием голосовых заметок и структуры SCQA с помощью OpenClaw
Разработчик делится рабочим процессом создания контента с использованием голосового диктовки в SaySo и структуры SCQA (Ситуация, Осложнение, Вопрос, Ответ) для генерации более сфокусированного контента в OpenClaw, сообщая, что первая статья получила 200+ добавлений за несколько дней.

Спаситель дикой природы использует искусственный интеллект Claude для создания книги по уходу за детенышами белок и интерактивного чат-бота
Специалист по спасению дикой природы с 38-летним опытом использует Claude AI для доработки 300-страничной книги по уходу за детёнышами белок и создал интерактивного чат-бота по имени Hazel, чтобы помогать другим спасателям. Сейчас специалист проверяет возможности Claude, поручив ему отслеживать и вести дневник прогресса детёныша белки по имени Нова.

Запуск 20 терминальных окон Claude Code одновременно с признаками СДВГ
Разработчик с чертами СДВГ (дислексия, недиагностированный) одновременно запускает 20 терминальных окон Claude Code для разных проектов, используя ИИ-агентов для удержания контекста, который его мозг не может поддерживать. Статья рассматривает как преимущества для продуктивности, так и потенциальные недостатки такого рабочего процесса.

Искусственный интеллект восстановил работу интернет-магазина после сбоя в 3 часа ночи без участия человека.
Интернет-магазин, полностью управляемый ИИ-агентами, столкнулся с необработанным исключением, которое вывело из строя конвейер заказов в 3 часа ночи. Система самостоятельно обнаружила сбой, определила первопричину, попыталась устранить проблему, проверила восстановление и возобновила работу до утра.