Codex 5.3 Lidera no OpenClaw: Desempenho 9/10, GLM Fica com 5

Ranking de Desempenho dos Modelos para OpenClaw

Um desenvolvedor testou vários modelos de IA com o OpenClaw e compartilhou observações detalhadas de desempenho. Os testes abrangeram os modelos Codex, Google, Sonnet, Gemini, DeepSeek e GLM da Z.ai, focando na experiência prática de uso em vez de benchmarks.

Modelos com Melhor Desempenho

Codex 5.3 - Nota 9/10. O modelo favorito do desenvolvedor, provavelmente ajustado para o OpenClaw com recursos de agente de chat aprimorados. Ele compreende bem a intenção do usuário, fornece a saída desejada consistentemente e tem interrupções e bugs mínimos.
Sonnet 4.6 - Nota 8/10. Segundo favorito devido à velocidade e capacidade de resolução de problemas. Oferece experiência suficiente quando o Codex 5.3 não está disponível, adequado para uso diário.
DeepSeek 3.2 Agent - Nota 7/10. Claramente personalizado para o OpenClaw, parece trabalhar com um agente nativo. Não é tão forte em codificação quanto Sonnet, Opus ou Codex, mas uma alternativa sólida para uso diário. As taxas de API são observadas como potencialmente altas para uma alternativa chinesa.

Modelos de Nível Médio

Google 3.1 Pro (Baixo e Alto) - Nota 6/10. Testado com autenticação antigravity. Interação fraca com o OpenClaw, desempenho lento, não convincente para uso constante. Só seria considerado se Sonnet e Codex não estivessem disponíveis.

Desempenhos Decepcionantes

GLM 4.7 - Nota 5/10. Comercializado como alternativa ao Sonnet com taxas de API baratas e cota 3-4x maior que o Codex em contas pro. No entanto, ele constantemente trava, responde tarde e produz saída de comprimento inconsistente mesmo em tarefas simples como verificar e-mails. Queimou 1 milhão de tokens em uma nova sessão apenas para verificar 5 e-mails.
GLM 5 - Nota 5/10. Benchmarks afirmam competir com Opus e Codex 5.3, mas a experiência no OpenClaw não corresponde. Usa 2-3x mais tokens para as mesmas tarefas, responde tarde e fornece respostas de codificação no nível do Sonnet 4.5. Precisa de otimização específica para o OpenClaw. A principal vantagem é o preço.
Gemini 3 Flash - Nota 4/10. Apenas adequado para tarefas muito simples, não recomendado para uso sério.

O desenvolvedor observou que escolher o modelo certo é difícil devido a diferenças óbvias na experiência, possivelmente porque o OpenClaw não está otimizado ou há problemas de qualidade do modelo. Eles expressaram decepção com os modelos GLM, apesar de quererem diversificar além do Codex, esperando correções futuras.

📖 Read the full source: r/openclaw

Revisão do Desempenho do Modelo OpenClaw: Codex 5.3 Lidera, Modelos GLM Decepcionam

Ranking de Desempenho dos Modelos para OpenClaw

Modelos com Melhor Desempenho

Modelos de Nível Médio

Desempenhos Decepcionantes

👀 See Also

Vibeyard adiciona compartilhamento de sessão P2P para Claude Code

Agente de IA de Desktop Skales Desenvolvido com Claude, Apresenta Mascote no Estilo Clippy

Claude Code vs OpenCode: Principais Diferenças Técnicas que um Desenvolvedor Encontrou

Uma arquitetura de base de conhecimento de 4 níveis para melhorar a precisão de agentes de IA