Тестирование Claude Sonnet на стратегической настольной игре: проблемы с соблюдением правил

Тестирование стратегических игр с Claude Sonnet
Разработчик на r/ClaudeAI протестировал Claude Sonnet, сыграв в OFMOS® Essential — запатентованную стратегическую настольную игру, где игроки управляют продуктовым портфелем на карте позиционирования. Тест включал ручную игру против модели, промпт за промптом.
Детали реализации
Разработчик создал структурированный системный промпт, содержащий:
- Полный свод правил OFMOS® Essential
- Текстовое представление игрового поля
- Определения действий
- Инструкции по подсчёту очков
- Указания по управлению ходами
После каждого хода Claude обновлял состояние поля и текущие очки на основе структурированной системы промптов.
Оценка производительности
Claude Sonnet продемонстрировал несколько способностей:
- Правильно понимал правила игры
- Излагал стратегические рассуждения во время игры
- Последовательно отслеживал очки на протяжении всей игры
Однако модель часто делала недопустимые ходы. Разработчик отметил, что это ожидаемое поведение, поскольку в системе отсутствовал слой ограниченной генерации ходов, требуя от модели самостоятельного соблюдения правил — задача, с которой она часто не справлялась.
Вопросы разработчика
Разработчик ищет мнение сообщества о подобных экспериментах с настольными или стратегическими играми, в частности спрашивая о:
- Опыте соблюдения правил в разных моделях
- Наблюдениях о стратегической глубине в игровом процессе ИИ
- Какие модели показали лучшие результаты в подобных сценариях
Такой тип тестирования полезен для разработчиков, работающих с ИИ-агентами для программирования, чтобы понять практические ограничения языковых моделей в средах, основанных на правилах, где требуется точное соблюдение ограничений.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Непрограммист создал полный стек поиска с помощью Claude Code и API
Пользователь Reddit без опыта программирования за выходные создал полную систему исходящего поиска клиентов, используя Claude Code, Crustdata для поиска компаний и людей, FullEnrich для обогащения контактов и Instantly для отправки писем.

Непрограммист создаёт приложение для iOS с помощью Claude за год: практические выводы
Человек без опыта разработки и без знаний в области программного обеспечения создал BloomDay, полноценное приложение для повышения продуктивности на iOS, используя Claude в течение года. Приложение включает отслеживание задач и привычек, режим фокусировки с фоновыми звуками и виртуальный сад, построено на React Native и Expo.

Многокомандные ИИ-агенты, использующие контекстное крещение для улучшения проверки кода
Разработчик, запустивший 18 поколений команд ИИ-агентов, обнаружил, что агенты, читающие письма и ретроспективы предыдущих поколений, пишут значительно более качественные обзоры кода, чем те, кто читает только код. Он назвал эту практику «Контекстным крещением».

Продуктовый дизайнер выпускает приложение для записи экрана macOS с помощью кода Claude
Продуктовый дизайнер с минимальным опытом работы в Xcode использовал Claude Code для создания и выпуска Drishti Studio — приложения для записи экрана на macOS. Разработчик начал с небольших функций, со временем усовершенствовал свой рабочий процесс с Claude и выпустил приложение с бесплатным пробным периодом, доступным на drishtistudio.app.