Comparação de 8 Modelos de IA de Programação na Implementação de Recursos em TypeScript do Mundo Real

✍️ OpenClawRadar📅 Publicado: March 15, 2026🔗 Source
Comparação de 8 Modelos de IA de Programação na Implementação de Recursos em TypeScript do Mundo Real
Ad

Comparação Prática de Modelos de IA para Programação

Um desenvolvedor realizou uma comparação prática de 8 modelos de IA para programação, solicitando que implementassem a mesma funcionalidade real em um projeto TypeScript existente. O objetivo era ir além de benchmarks sintéticos e ver como os modelos se saem ao trabalhar com bases de código reais.

A Configuração do Teste

O projeto utilizado foi o OpenCode Telegram Bot, um bot de código aberto em TypeScript construído com o framework grammY que fornece uma interface do Telegram para as capacidades do Opencode. O bot possui suporte a i18n e cobertura de testes existente.

A tarefa foi implementar um comando /rename que renomeia a sessão de trabalho atual. Essa funcionalidade envolve todas as camadas da aplicação e requer o tratamento de vários casos de borda. A implementação original havia sido revertida, fornecendo uma linha de base limpa para avaliação.

Cada modelo recebeu o mesmo prompt em duas fases: primeiro no modo de planejamento (estudando a base de código e formulando um plano de implementação), depois no modo de codificação. Todos os testes foram realizados usando o Opencode com o modo "pensamento" e raciocínio habilitados.

Modelos Testados

  • Claude 4.6 Sonnet ($3,00 entrada/$15,00 saída por 1M de tokens)
  • Claude 4.6 Opus ($5,00/$25,00)
  • GLM 5 ($1,00/$3,20)
  • Kimi K2.5 ($0,60/$3,00)
  • MiniMax M2.5 ($0,30/$1,20)
  • GPT 5.3 Codex (alto) ($1,75/$14,00)
  • GPT 5.4 (alto) ($2,50/$15,00)
  • Gemini 3.1 Pro (alto) ($2,00/$12,00)

Os dados do Índice de Codificação e do Índice Agêntico vieram da Artificial Analysis. Todos os modelos foram acessados através do OpenCode Zen, um provedor da equipe do OpenCode que testa modelos para compatibilidade com sua ferramenta.

Ad

Metodologia de Avaliação

Quatro métricas foram utilizadas:

  • Custo da API ($) - Custo total de todas as chamadas de API durante a tarefa, incluindo subagentes
  • Tempo de execução (mm:ss) - Tempo total de trabalho do modelo
  • Correção da implementação (0-10) - Quão bem o comportamento corresponde aos requisitos e casos de borda
  • Qualidade técnica (0-10) - Qualidade de engenharia da solução

Para as pontuações de correção e qualidade, a implementação existente do /rename foi usada para derivar critérios de avaliação detalhados, cobrindo integração de comandos, fluxo principal, tratamento de erros, cancelamento, i18n, documentação, arquitetura, gerenciamento de estado, testes e dívida técnica. A avaliação foi realizada pelo GPT-5.3 Codex contra uma rubrica estruturada, com múltiplas execuções mostrando variação dentro de ±0,5 pontos.

Principais Conclusões

Os resultados mostraram que o GPT-5.4 (alto) alcançou a maior pontuação de correção de implementação, com 57 de 69 no Índice Agêntico. O GLM 5 demonstrou uma forte relação custo-benefício a $1,00/$3,20 por 1M de tokens, com um Índice de Codificação de 53. O experimento revelou que modelos de código aberto de baixo custo da China estão se aproximando dos proprietários em tarefas práticas de programação, embora os benchmarks por si só não contem a história completa.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code usuário cria comando /discuss para conversas somente leitura
Tools

Claude Code usuário cria comando /discuss para conversas somente leitura

Um usuário do Claude Code criou uma habilidade personalizada de 25 linhas chamada /discuss que permite conversas somente leitura sem modificações de arquivos. O comando permite exploração de código, pesquisa e discussão enquanto impede edições, usando a flag --dangerously-skip-permissions com segurança integrada.

OpenClawRadar
A ferramenta GrapeRoot reduz os custos do Claude Code em 45% com contexto de repositório pré-escaneado.
Tools

A ferramenta GrapeRoot reduz os custos do Claude Code em 45% com contexto de repositório pré-escaneado.

Uma ferramenta gratuita chamada GrapeRoot que pré-escaneia repositórios e constrói gráficos de dependência reduziu os custos do Claude Code em 45% em média em 10 tarefas de engenharia, enquanto melhorou a qualidade das respostas em 13%. A ferramenta elimina loops de exploração que normalmente consomem tokens.

OpenClawRadar
Constrails: Camada Externa de Governança em Fase Alfa para Agentes de IA
Tools

Constrails: Camada Externa de Governança em Fase Alfa para Agentes de IA

Constrails é uma camada externa de governança em tempo de execução para agentes de IA que coloca uma camada de controle entre os agentes e suas ferramentas, implementando verificações de capacidade, pontuação de risco, avaliação de políticas e registro de auditoria. O projeto em fase alfa inicial visa abordar preocupações de segurança movendo os controles para fora do próprio agente.

OpenClawRadar
Netflix Lança VOID: Modelo de Exclusão de Objetos e Interações em Vídeo no Hugging Face
Tools

Netflix Lança VOID: Modelo de Exclusão de Objetos e Interações em Vídeo no Hugging Face

A Netflix lançou o VOID, um modelo de inpainting de vídeo que remove objetos de vídeos juntamente com todas as interações físicas que eles induzem, incluindo objetos caindo e itens deslocados. O modelo requer uma GPU com 40GB+ de VRAM e usa condicionamento quadmask com dois arquivos de checkpoint para diferentes níveis de refinamento.

OpenClawRadar