Claude vs GPT-4o: Gleicher Prompt, unterschiedliche Koordinaten

Ein Reddit-Nutzer ließ denselben Doppelpendel-Prompt durch Claude und GPT-4o nebeneinander laufen, wobei ein gemeinsamer Host-Renderer verwendet wurde, und sah innerhalb von Sekunden zwei völlig unterschiedliche physikalische Systeme. Die Ursache: Jedes Modell wählte eine andere Konvention zur Messung von Theta.

Claude maß theta von der oberen Vertikalen (theta=0 = Arm zeigt senkrecht nach oben), während GPT-4o von der unteren Vertikalen maß (theta=0 = Arm hängt senkrecht nach unten). Der Host-Renderer in public/workers/simulator-host.js liest einfach info.theta1 und info.theta2 und zeichnet die Arme entsprechend – ohne kosmetische Unterschiede. Die visuelle Abweichung ist also eine echte physikalische Abweichung.

Beide Konventionen sind technisch gültig. Die meisten klassischen Mechanik-Lehrbücher verwenden Theta von der unteren Vertikalen, weil der Gleichgewichtspunkt bei theta=0 für Kleinwinkelnäherungen liegt. Aber Theta von der oberen Vertikalen ist ebenfalls in vielen Referenzen üblich. Claude hielt konsequent an seiner Konvention in Bewegungsgleichungen, Anfangsbedingungen und Integration (Runge Kutta) fest. GPT-4o verwendete stillschweigend die andere Konvention – es kommentierte seine Wahl nicht.

Der Nutzer arbeitete an Physics Bench, einem Open-Source-Seitenvergleichs-Benchmark, bei dem jedes Modell denselben Generierungsvertrag erhält: function createSimulator(...) in lib/prompt.ts. Der Host besitzt die gesamte Darstellung; Modelle implementieren nur step, getInfo und reset. Modelle greifen nie auf draw zu. Daher ist jede visuelle Abweichung zwischen den Panels garantiert auf einen echten Unterschied in der Simulationslogik zurückzuführen, nicht auf Darstellungsentscheidungen.

Ein Unit-Test der Mathematik hätte dies nicht aufgedeckt. Beide Modelle erzeugen korrekte Physik für ihre gewählten Konventionen. Man sieht die Abweichung erst, wenn man sie nebeneinander mit demselben Zeichnungscode darstellt. Dies unterstreicht die Bedeutung, Koordinatenkonventionen in Prompts explizit anzugeben, wenn die Ausgabe von einem festen Renderer verarbeitet wird.

Siehe den vollständigen Reddit-Thread für Code-Ausschnitte und Details zum Conversation Inspector.

📖 Read the full source: r/ClaudeAI

Claude vs GPT-4o: Gleicher Doppelpendel-Prompt, unterschiedliche Koordinatenkonventionen

👀 Siehe auch

KI-Kunstkritiker erkennen echten Monet nicht und entlarven hohle Kritik

NVIDIA DGX Spark Community startet Spark Arena für reproduzierbare LLM-Benchmarks

Claude Code v2.1.119: Konfigurationspersistenz, GitLab-/Bitbucket-PR-Unterstützung und Dutzende Fehlerbehebungen

„AI-Washing“: Britische Firmen bezeichnen sich trotz schwacher Verbindungen als KI-Unternehmen um