Claude vs GPT-4o: 同一の二重振り子プロンプト、異なる座標系の慣例

あるRedditユーザーが、共有ホストレンダラーを使用してClaudeとGPT-4oに同じ二重振り子のプロンプトを実行したところ、数秒のうちに2つのまったく異なる物理システムが表示されました。原因は、各モデルがθの測定に異なる規約を選択したことです。
Claudeは上向き垂直線からthetaを測定しました(theta=0 = 腕が真上を指す)。一方、GPT-4oは下向き垂直線から測定しました(theta=0 = 腕が真下に垂れる)。ホストレンダラー(public/workers/simulator-host.js)は単にinfo.theta1とinfo.theta2を読み取り、それに従って腕を描画するだけです。見た目の違いはありません。したがって、視覚的な不一致は実際の物理の不一致です。
両方の規約は技術的に有効です。ほとんどの古典力学の教科書では、下向き垂直線からのθを使用します。これは、小角度近似において平衡点がtheta=0になるためです。しかし、上向き垂直線からのθも多くの参考文献で標準的に使用されています。Claudeは運動方程式、初期条件、積分(Runge Kutta)にわたって一貫してその規約を守りました。GPT-4oは、その選択についてコメントすることなく、黙って別の規約を使用しました。
ユーザーはPhysics Benchに取り組んでいました。これはオープンソースの並列ベンチマークで、すべてのモデルに同じ生成契約(function createSimulator(...) in lib/prompt.ts)が与えられます。ホストがすべてのレンダリングを担当し、モデルはstep、getInfo、resetのみを実装します。モデルはdrawに触れることはありません。したがって、パネル間の視覚的な違いはすべて、レンダリングの選択ではなく、シミュレーションロジックの実際の違いに起因することが保証されています。
数学の単体テストではこれを見つけられなかったでしょう。両方のモデルは、それぞれの選択した規約に対して正しい物理を生成します。同じ描画コードを通して並べてレンダリングしたときに初めて、その違いが明らかになります。これは、出力が固定レンダラーで消費される場合、プロンプトで座標規約を明示的に指定することの重要性を強調しています。
コードスニペットと会話インスペクターの詳細については、完全なRedditスレッドを参照してください。
📖 Read the full source: r/ClaudeAI
👀 See Also

AMD Ryzen AI NPUがLemonade 10.0とFastFlowLMでLinux LLMサポートを獲得
AMD Ryzen AI NPUは現在、Linux 7.0カーネルまたはAMDXDNAドライバーのバックポートを必要とするFastFlowLMランタイムを搭載したLemonade 10.0サーバーを通じて、Linux上で大規模言語モデルを実行できるようになりました。

取引戦略ベンチマーク:より安価なAIモデルがClaude Opus 4.6を上回る
ベンチマークテストでは、10種類の大規模言語モデル(LLM)の取引戦略開発能力を比較しました。その結果、Minimax 2.5やGemini 3.1などの低価格モデルが、10倍も高価なClaude Opus 4.6を上回るパフォーマンスを示しました。実験は3回実施され、一貫した結果が得られています。

Redditユーザーが主張:開発者はクリーンコーディングからAIエージェントを活用したモデルアーキテクチャへ移行すべき
Redditの投稿では、ClaudeのようなAIコーディングエージェントを使用する開発者は、クリーンなコードを書くことに集中するのをやめ、AIシステムを指揮する「モデルアーキテクト」になるべきだと主張しています。著者は、コーディング前に「ロジックマップ」を作成したり、プロンプトを設計レビューとして扱ったりする具体的な技術を共有しています。

SDLプロジェクト、GitHubの問題を受けてAI生成のコミットを禁止
SDLプロジェクトは、GitHubのイシューでCopilotの使用に関する懸念が提起されたことを受け、AI生成コミットを禁止するポリシーを実施しました。このイシューでは、レビュー #13277 と #12730 をAI支援が検出された例として具体的に言及しています。