Claude vs GPT-4o: Mesmo Prompt, Diferentes Coordenadas

Um usuário do Reddit executou o mesmo prompt de pêndulo duplo no Claude e no GPT-4o lado a lado, usando um renderizador hospedeiro compartilhado, e viu dois sistemas físicos completamente diferentes em segundos. A causa: cada modelo escolheu uma convenção diferente para medir theta.

O Claude mediu theta a partir da vertical para cima (theta=0 = braço apontando para cima), enquanto o GPT-4o mediu a partir da vertical para baixo (theta=0 = braço pendurado para baixo). O renderizador hospedeiro em public/workers/simulator-host.js simplesmente lê info.theta1 e info.theta2 e desenha os braços de acordo — sem diferenças cosméticas. Portanto, a diferença visual é uma diferença física real.

Ambas as convenções são tecnicamente válidas. A maioria dos livros de mecânica clássica usa theta a partir da vertical para baixo porque torna o ponto de equilíbrio em theta=0 para aproximações de pequenos ângulos. Mas theta a partir da vertical para cima também é padrão em muitas referências. O Claude manteve sua convenção consistentemente nas equações de movimento, condições iniciais e integração (Runge Kutta). O GPT-4o usou a outra convenção silenciosamente — não comentou sobre sua escolha.

O usuário estava trabalhando no Physics Bench, um benchmark lado a lado de código aberto onde cada modelo recebe o mesmo contrato de geração: function createSimulator(...) em lib/prompt.ts. O hospedeiro possui toda a renderização; os modelos implementam apenas step, getInfo e reset. Os modelos nunca tocam em draw. Portanto, qualquer diferença visual entre os painéis é garantidamente proveniente de uma diferença real na lógica de simulação, não de escolhas de renderização.

Um teste unitário da matemática não teria captado isso. Ambos os modelos produzem física correta para suas convenções escolhidas. Você só vê a divergência ao renderizá-los lado a lado através do mesmo código de desenho. Isso ressalta a importância de especificar explicitamente as convenções de coordenadas nos prompts quando a saída é consumida por um renderizador fixo.

Veja o tópico completo do Reddit para trechos de código e detalhes do inspetor de conversação.

📖 Read the full source: r/ClaudeAI

Claude vs GPT-4o: Mesmo Prompt de Pêndulo Duplo, Diferentes Convenções de Coordenadas

👀 See Also

Anthropic dobra limites de uso do Claude Code e fecha acordo de computação com a SpaceX

GitHub Claude-Code v2.1.27 Lançamento: Principais Atualizações e Correções

Microsoft cancela licenças do Claude Code — Agentes de IA são caros demais para escalar

Claude Code v2.1.187: Correções em Saída Estruturada, Segurança de Sandbox e Restrições do Modelo de Organização