Claude vs GPT-4o: 二重振り子で座標系の違いを比較

あるRedditユーザーが、共有ホストレンダラーを使用してClaudeとGPT-4oに同じ二重振り子のプロンプトを実行したところ、数秒のうちに2つのまったく異なる物理システムが表示されました。原因は、各モデルがθの測定に異なる規約を選択したことです。

Claudeは上向き垂直線からthetaを測定しました（theta=0 = 腕が真上を指す）。一方、GPT-4oは下向き垂直線から測定しました（theta=0 = 腕が真下に垂れる）。ホストレンダラー（public/workers/simulator-host.js）は単にinfo.theta1とinfo.theta2を読み取り、それに従って腕を描画するだけです。見た目の違いはありません。したがって、視覚的な不一致は実際の物理の不一致です。

両方の規約は技術的に有効です。ほとんどの古典力学の教科書では、下向き垂直線からのθを使用します。これは、小角度近似において平衡点がtheta=0になるためです。しかし、上向き垂直線からのθも多くの参考文献で標準的に使用されています。Claudeは運動方程式、初期条件、積分（Runge Kutta）にわたって一貫してその規約を守りました。GPT-4oは、その選択についてコメントすることなく、黙って別の規約を使用しました。

ユーザーはPhysics Benchに取り組んでいました。これはオープンソースの並列ベンチマークで、すべてのモデルに同じ生成契約（function createSimulator(...) in lib/prompt.ts）が与えられます。ホストがすべてのレンダリングを担当し、モデルはstep、getInfo、resetのみを実装します。モデルはdrawに触れることはありません。したがって、パネル間の視覚的な違いはすべて、レンダリングの選択ではなく、シミュレーションロジックの実際の違いに起因することが保証されています。

数学の単体テストではこれを見つけられなかったでしょう。両方のモデルは、それぞれの選択した規約に対して正しい物理を生成します。同じ描画コードを通して並べてレンダリングしたときに初めて、その違いが明らかになります。これは、出力が固定レンダラーで消費される場合、プロンプトで座標規約を明示的に指定することの重要性を強調しています。

コードスニペットと会話インスペクターの詳細については、完全なRedditスレッドを参照してください。

📖 Read the full source: r/ClaudeAI

Claude vs GPT-4o: 同一の二重振り子プロンプト、異なる座標系の慣例

👀 See Also

クラウラのアーキテクチャと社会的自律性フレームワークの探求

Claude Opus 4.6の完全なシステムプロンプトがGitHubで流出

コーディングエージェントのセッションログはローカルに保存され、オープンフェデレーテッドトレーニングを可能にする可能性があります

Claude Code v2.1.140 エージェントツールマッチングの修正、/goalハングアップ、Windowsイベントループの停滞