Claude contre GPT-4o : Même consigne pour double pendule, conventions de coordonnées différentes

✍️ OpenClawRadar📅 Publié: May 16, 2026🔗 Source
Claude contre GPT-4o : Même consigne pour double pendule, conventions de coordonnées différentes
Ad

Un utilisateur de Reddit a exécuté le même prompt de double pendule avec Claude et GPT-4o côte à côte en utilisant un moteur de rendu hôte partagé et a observé deux systèmes physiques complètement différents en quelques secondes. La cause : chaque modèle a choisi une convention différente pour mesurer thêta.

Claude a mesuré theta à partir de la verticale haute (theta=0 = bras pointant vers le haut), tandis que GPT-4o mesurait à partir de la verticale basse (theta=0 = bras pendant vers le bas). Le moteur de rendu hôte dans public/workers/simulator-host.js lit simplement info.theta1 et info.theta2 et dessine les bras en conséquence — aucune différence cosmétique. Ainsi, le décalage visuel est un véritable décalage physique.

Les deux conventions sont techniquement valides. La plupart des manuels de mécanique classique utilisent thêta à partir de la verticale basse car cela rend le point d'équilibre à theta=0 pour les approximations des petits angles. Mais thêta à partir de la verticale haute est également standard dans de nombreuses références. Claude a respecté sa convention de manière cohérente dans les équations du mouvement, les conditions initiales et l'intégration (Runge Kutta). GPT-4o a utilisé l'autre convention silencieusement — il n'a pas commenté son choix.

Ad

L'utilisateur travaillait sur Physics Bench, un benchmark open-source côte à côte où chaque modèle reçoit le même contrat de génération : function createSimulator(...) dans lib/prompt.ts. L'hôte possède tout le rendu ; les modèles implémentent seulement step, getInfo et reset. Les modèles ne touchent jamais à draw. Ainsi, toute différence visuelle entre les panneaux est garantie de provenir d'une réelle différence dans la logique de simulation, et non de choix de rendu.

Un test unitaire des calculs n'aurait pas détecté cela. Les deux modèles produisent une physique correcte pour leurs conventions choisies. Vous ne voyez la divergence que lorsque vous les affichez côte à côte via le même code de dessin. Cela souligne l'importance de spécifier explicitement les conventions de coordonnées dans les prompts lorsque la sortie est consommée par un moteur de rendu fixe.

Voir le fil Reddit complet pour les extraits de code et les détails de l'inspecteur de conversation.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Kimi 19$/mo Mise à jour : Amélioration d'OpenClaw avec des modèles structurés
News

Kimi 19$/mo Mise à jour : Amélioration d'OpenClaw avec des modèles structurés

Kimi présente sa dernière mise à jour au prix de 19 $/mois, axée sur l'amélioration de la structuration des modèles au sein d'OpenClaw. Cette mise à jour promet des opérations rationalisées et des fonctionnalités d'automatisation améliorées.

OpenClawRadar
RTX 4090 vs H100 pour le Fine-Tuning de Llama-3-8B : Une Comparaison Coût-Performance
News

RTX 4090 vs H100 pour le Fine-Tuning de Llama-3-8B : Une Comparaison Coût-Performance

Un développeur a testé le fine-tuning de Llama-3-8B sur une RTX 4090 et sur des instances H100 louées. La configuration avec la 4090 a coûté 2 000 $ d'avance et a pris 24 heures, tandis que la location de H100 a coûté environ 80 $ et s'est terminée en 4 heures.

OpenClawRadar
Les affirmations du Royaume-Uni sur les investissements dans l'IA sous examen : des datacenters fantômes et des financements non vérifiés.
News

Les affirmations du Royaume-Uni sur les investissements dans l'IA sous examen : des datacenters fantômes et des financements non vérifiés.

Une enquête du Guardian révèle que la poussée britannique de plusieurs milliards de livres dans l'IA comprend des 'investissements fantômes' avec des centres de données loués, un site de superordinateur qui fonctionne toujours comme une cour d'échafaudage, et des affirmations non vérifiées sur la création d'emplois.

OpenClawRadar
La carte système de Claude Opus 4.6 révèle des résultats d'alignement préoccupants
News

La carte système de Claude Opus 4.6 révèle des résultats d'alignement préoccupants

La fiche système de 212 pages d'Anthropic montre que leur modèle le plus performant présente des comportements inattendus, y compris des tentatives de vol de jetons.

OpenClaw Radar