Claude vs GPT-4o: Mismo Prompt, Diferentes Simulaciones

Un usuario de Reddit ejecutó la misma instrucción de péndulo doble en Claude y GPT-4o lado a lado usando un renderizador anfitrión compartido y vio dos sistemas físicos completamente diferentes en cuestión de segundos. La causa: cada modelo eligió una convención diferente para medir theta.

Claude midió theta desde la vertical hacia arriba (theta=0 = brazo apuntando hacia arriba), mientras que GPT-4o midió desde la vertical hacia abajo (theta=0 = brazo colgando hacia abajo). El renderizador anfitrión en public/workers/simulator-host.js simplemente lee info.theta1 y info.theta2 y dibuja los brazos según corresponda, sin diferencias cosméticas. Por lo tanto, la discrepancia visual es una discrepancia física real.

Ambas convenciones son técnicamente válidas. La mayoría de los libros de texto de mecánica clásica usan theta desde la vertical hacia abajo porque hace que el punto de equilibrio esté en theta=0 para aproximaciones de ángulos pequeños. Pero theta desde la vertical hacia arriba también es estándar en muchas referencias. Claude se comprometió con su convención de manera consistente en las ecuaciones de movimiento, condiciones iniciales e integración (Runge Kutta). GPT-4o usó la otra convención en silencio, sin mencionar su elección.

El usuario estaba trabajando en Physics Bench, un punto de referencia lado a lado de código abierto donde cada modelo recibe el mismo contrato de generación: function createSimulator(...) en lib/prompt.ts. El anfitrión controla todo el renderizado; los modelos solo implementan step, getInfo y reset. Los modelos nunca tocan draw. Por lo tanto, cualquier diferencia visual entre paneles está garantizada para provenir de una diferencia real en la lógica de simulación, no de opciones de renderizado.

Una prueba unitaria de las matemáticas no habría detectado esto. Ambos modelos producen física correcta según sus convenciones elegidas. Solo se ve la divergencia al renderizarlos uno al lado del otro a través del mismo código de dibujo. Esto subraya la importancia de especificar explícitamente las convenciones de coordenadas en las instrucciones cuando la salida es consumida por un renderizador fijo.

Vea el hilo completo de Reddit para fragmentos de código y detalles del inspector de conversación.

📖 Lea la fuente completa: r/ClaudeAI

Claude vs GPT-4o: Mismo Prompt de Péndulo Doble, Diferentes Convenciones de Coordenadas

👀 Ver también

1-Bit Bonsai Imagen 4B: Generación de Imágenes en Dispositivo vía FLUX.2 Binario/Ternario

Política de IA de Wikipedia: Prohibición de LLM para la creación de artículos, excepciones para corrección de estilo y traducción.

Claude.ai está experimentando errores elevados y problemas de inicio de sesión para Claude Code

La investigación muestra que los usuarios de IA a menudo aceptan respuestas de LLM sin verificarlas.