Тестирование Claude Sonnet на стратегической настольной игре: проблемы с соблюдением правил

✍️ OpenClawRadar📅 Опубликовано: 16 апреля 2026 г.🔗 Source
Тестирование Claude Sonnet на стратегической настольной игре: проблемы с соблюдением правил
Ad

Тестирование стратегических игр с Claude Sonnet

Разработчик на r/ClaudeAI протестировал Claude Sonnet, сыграв в OFMOS® Essential — запатентованную стратегическую настольную игру, где игроки управляют продуктовым портфелем на карте позиционирования. Тест включал ручную игру против модели, промпт за промптом.

Детали реализации

Разработчик создал структурированный системный промпт, содержащий:

  • Полный свод правил OFMOS® Essential
  • Текстовое представление игрового поля
  • Определения действий
  • Инструкции по подсчёту очков
  • Указания по управлению ходами

После каждого хода Claude обновлял состояние поля и текущие очки на основе структурированной системы промптов.

Оценка производительности

Claude Sonnet продемонстрировал несколько способностей:

  • Правильно понимал правила игры
  • Излагал стратегические рассуждения во время игры
  • Последовательно отслеживал очки на протяжении всей игры

Однако модель часто делала недопустимые ходы. Разработчик отметил, что это ожидаемое поведение, поскольку в системе отсутствовал слой ограниченной генерации ходов, требуя от модели самостоятельного соблюдения правил — задача, с которой она часто не справлялась.

Ad

Вопросы разработчика

Разработчик ищет мнение сообщества о подобных экспериментах с настольными или стратегическими играми, в частности спрашивая о:

  • Опыте соблюдения правил в разных моделях
  • Наблюдениях о стратегической глубине в игровом процессе ИИ
  • Какие модели показали лучшие результаты в подобных сценариях

Такой тип тестирования полезен для разработчиков, работающих с ИИ-агентами для программирования, чтобы понять практические ограничения языковых моделей в средах, основанных на правилах, где требуется точное соблюдение ограничений.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Непрограммист создал полный стек поиска с помощью Claude Code и API
Кейсы

Непрограммист создал полный стек поиска с помощью Claude Code и API

Пользователь Reddit без опыта программирования за выходные создал полную систему исходящего поиска клиентов, используя Claude Code, Crustdata для поиска компаний и людей, FullEnrich для обогащения контактов и Instantly для отправки писем.

OpenClawRadar
Непрограммист создаёт приложение для iOS с помощью Claude за год: практические выводы
Кейсы

Непрограммист создаёт приложение для iOS с помощью Claude за год: практические выводы

Человек без опыта разработки и без знаний в области программного обеспечения создал BloomDay, полноценное приложение для повышения продуктивности на iOS, используя Claude в течение года. Приложение включает отслеживание задач и привычек, режим фокусировки с фоновыми звуками и виртуальный сад, построено на React Native и Expo.

OpenClawRadar
Многокомандные ИИ-агенты, использующие контекстное крещение для улучшения проверки кода
Кейсы

Многокомандные ИИ-агенты, использующие контекстное крещение для улучшения проверки кода

Разработчик, запустивший 18 поколений команд ИИ-агентов, обнаружил, что агенты, читающие письма и ретроспективы предыдущих поколений, пишут значительно более качественные обзоры кода, чем те, кто читает только код. Он назвал эту практику «Контекстным крещением».

OpenClawRadar
Продуктовый дизайнер выпускает приложение для записи экрана macOS с помощью кода Claude
Кейсы

Продуктовый дизайнер выпускает приложение для записи экрана macOS с помощью кода Claude

Продуктовый дизайнер с минимальным опытом работы в Xcode использовал Claude Code для создания и выпуска Drishti Studio — приложения для записи экрана на macOS. Разработчик начал с небольших функций, со временем усовершенствовал свой рабочий процесс с Claude и выпустил приложение с бесплатным пробным периодом, доступным на drishtistudio.app.

OpenClawRadar