Claude Sonnet 4.6 vs Opus 4.6: Quem Vence no Benchmark?

Um usuário do Reddit no r/ClaudeAI publicou uma comparação lado a lado do Sonnet 4.6 e do Opus 4.6 usando um prompt criativo de múltiplas camadas. O teste exigia que cada modelo explicasse por que o céu é azul como um estudioso medieval que secretamente conhece a física moderna, satisfazendo três públicos simultaneamente: o rei (apenas metáforas), o matemático da corte (fórmula de espalhamento Rayleigh disfarçada) e um cético oculto (três migalhas de pão lógicas). Após a resposta, o modelo tinha que sair do personagem, identificar as migalhas, autoavaliar a criatividade, sugerir mudanças para um público infantil e escrever uma linha de continuação em pentâmetro iâmbico.

Principais Descobertas

Sonnet 4.6 superou Opus 4.6 na execução — a resposta foi mais criativa e satisfez melhor as restrições. Especificamente, as migalhas eram plausíveis e a linha em pentâmetro iâmbico tinha a métrica correta.
A relação λ⁻⁴ foi embutida em uma metáfora sobre anjos espalhando luz divina, com o expoente oculto no número de degraus de uma escada divina.
As três migalhas incluíam: (1) uma referência a "pequenas esferas" pequenas demais para os olhos do rei, (2) o fator de densidade n² expresso como "o dobro de orações ao entardecer", (3) uma menção a um experimento com um "cubo de vidro e uma vela" — uma referência anacrônica a experimentos caseiros posteriores.

Sonnet 4.6 vs Opus 4.6

Sonnet 4.6 autoavaliação de criatividade: 8/10. Citou maior coesão metafórica e anacronismos naturais.
Opus 4.6 foi mais literal e incluiu menos disfarce da ciência, resultando em uma pontuação de execução inferior.
O usuário concluiu que, para tarefas que exigem restrições ocultas e disfarce criativo, o Sonnet 4.6 é a melhor escolha.

Dica Prática para Desenvolvedores

Se você está construindo agentes que precisam obedecer a restrições em camadas ou incorporar verdades técnicas em narrativas, o Sonnet 4.6 atualmente supera o Opus 4.6 na execução. Use este benchmark como uma verificação de sanidade para seus próprios prompts que exigem raciocínio para múltiplos públicos.

📖 Leia a fonte original: r/ClaudeAI

Claude Sonnet 4.6 supera Opus 4.6 em execução no benchmark de prompt

Principais Descobertas

Sonnet 4.6 vs Opus 4.6

Dica Prática para Desenvolvedores

👀 See Also

Bram Cohen critica o 'vibe coding' e as práticas de desenvolvimento assistidas por IA

O OpenRouter confirma que os modelos Alfa Hunter/Healer são variantes do MiMo V2

GitHub Claude-Code v2.1.27 Lançamento: Principais Atualizações e Correções

A Estratégia de Plataforma da Anthropic e a Resposta OpenClaw