8 Modelos de IA Programação vs /rename em TypeScript: Qual Melhor?

Comparação Prática de Modelos de IA para Programação

Um desenvolvedor realizou uma comparação prática de 8 modelos de IA para programação, solicitando que implementassem a mesma funcionalidade real em um projeto TypeScript existente. O objetivo era ir além de benchmarks sintéticos e ver como os modelos se saem ao trabalhar com bases de código reais.

A Configuração do Teste

O projeto utilizado foi o OpenCode Telegram Bot, um bot de código aberto em TypeScript construído com o framework grammY que fornece uma interface do Telegram para as capacidades do Opencode. O bot possui suporte a i18n e cobertura de testes existente.

A tarefa foi implementar um comando /rename que renomeia a sessão de trabalho atual. Essa funcionalidade envolve todas as camadas da aplicação e requer o tratamento de vários casos de borda. A implementação original havia sido revertida, fornecendo uma linha de base limpa para avaliação.

Cada modelo recebeu o mesmo prompt em duas fases: primeiro no modo de planejamento (estudando a base de código e formulando um plano de implementação), depois no modo de codificação. Todos os testes foram realizados usando o Opencode com o modo "pensamento" e raciocínio habilitados.

Modelos Testados

Claude 4.6 Sonnet ($3,00 entrada/$15,00 saída por 1M de tokens)
Claude 4.6 Opus ($5,00/$25,00)
GLM 5 ($1,00/$3,20)
Kimi K2.5 ($0,60/$3,00)
MiniMax M2.5 ($0,30/$1,20)
GPT 5.3 Codex (alto) ($1,75/$14,00)
GPT 5.4 (alto) ($2,50/$15,00)
Gemini 3.1 Pro (alto) ($2,00/$12,00)

Os dados do Índice de Codificação e do Índice Agêntico vieram da Artificial Analysis. Todos os modelos foram acessados através do OpenCode Zen, um provedor da equipe do OpenCode que testa modelos para compatibilidade com sua ferramenta.

Metodologia de Avaliação

Quatro métricas foram utilizadas:

Custo da API ($) - Custo total de todas as chamadas de API durante a tarefa, incluindo subagentes
Tempo de execução (mm:ss) - Tempo total de trabalho do modelo
Correção da implementação (0-10) - Quão bem o comportamento corresponde aos requisitos e casos de borda
Qualidade técnica (0-10) - Qualidade de engenharia da solução

Para as pontuações de correção e qualidade, a implementação existente do /rename foi usada para derivar critérios de avaliação detalhados, cobrindo integração de comandos, fluxo principal, tratamento de erros, cancelamento, i18n, documentação, arquitetura, gerenciamento de estado, testes e dívida técnica. A avaliação foi realizada pelo GPT-5.3 Codex contra uma rubrica estruturada, com múltiplas execuções mostrando variação dentro de ±0,5 pontos.

Principais Conclusões

Os resultados mostraram que o GPT-5.4 (alto) alcançou a maior pontuação de correção de implementação, com 57 de 69 no Índice Agêntico. O GLM 5 demonstrou uma forte relação custo-benefício a $1,00/$3,20 por 1M de tokens, com um Índice de Codificação de 53. O experimento revelou que modelos de código aberto de baixo custo da China estão se aproximando dos proprietários em tarefas práticas de programação, embora os benchmarks por si só não contem a história completa.

📖 Read the full source: r/LocalLLaMA

Comparação de 8 Modelos de IA de Programação na Implementação de Recursos em TypeScript do Mundo Real

Comparação Prática de Modelos de IA para Programação

A Configuração do Teste

Modelos Testados

Metodologia de Avaliação

Principais Conclusões

👀 See Also

Brócolis: Plataforma de código aberto para executar agentes de IA de codificação a partir de tickets do Linear em sandboxes na nuvem

Claude Code Hook Monitora o Acúmulo de WIP em Fluxos de Trabalho de Codificação com IA

Claude Code UltraPlan: Alterações no Fluxo de Trabalho e Observações de Desempenho

Técnica de Double-Buffering para Janelas de Contexto de LLM Elimina a Compactação "Stop-the-World"