Claude Sonnet ボードゲームテスト: ルール遵守の課題

Claude Sonnetでの戦略ゲームテスト

r/ClaudeAIの開発者が、製品ポートフォリオをポジショニングマップ上で管理する特許取得済み戦略ボードゲーム「OFMOS® Essential」をプレイすることでClaude Sonnetをテストしました。テストでは、モデルに対してプロンプトごとに手動でゲームをプレイしました。

開発者は以下の要素を含む構造化システムプロンプトを設計しました：

各ターンの後、Claudeは構造化プロンプトシステムに基づいて盤面状態と累積スコアを更新しました。

Claude Sonnetは以下の能力を示しました：

しかし、モデルは頻繁に不正な手を指しました。開発者は、システムに制約付きの手生成レイヤーがなく、モデルが自己ルール強制を要求されるため、これは予想される動作であると指摘しました。このタスクではモデルが頻繁に失敗しました。

開発者は、ボードゲームや戦略ゲームに関する同様の実験についてコミュニティの意見を求めています。具体的には以下について質問しています：

この種のテストは、正確な制約強制が求められるルールベース環境における言語モデルの実用的限界を理解するために、AIコーディングエージェントを扱う開発者にとって有用です。

📖 Read the full source: r/ClaudeAI