Análise de 3.177 Chamadas de API em Ferramentas de IA

A análise recente conduzida em quatro ferramentas de codificação com IA—Claude Code Opus 4.6, Claude Code Sonnet 4.5, Codex GPT-5.3 e Gemini 2.5 Pro—destaca diferenças substanciais no gerenciamento de janelas de contexto de chamadas de API. Utilizando o rastreador Context Lens, o estudo interceptou 3.177 chamadas de API para avaliar a eficiência e estratégia das ferramentas no tratamento da janela de contexto ao serem incumbidas de corrigir bugs em um ambiente Express.js.

Cada ferramenta de codificação abordou um bug específico—uma verificação de nulo reordenada incorretamente em res.send(). Opus, Sonnet, Codex e Gemini foram incumbidos de identificar e corrigir o bug, seguido pela execução do conjunto de testes para verificar a correção. Todos tiveram sucesso, embora com abordagens e recursos variados.

Claude Code Opus 4.6 usou consistentemente cerca de 23K a 27K tokens, consistindo principalmente de definições de ferramentas (69% do contexto). Isso indica uma dependência do reenvio dessas definições devido à arquitetura, causando uma sobrecarga significativa de cache. Codex (GPT-5.3) apresentou uma faixa mais ampla de 29,3K a 47,2K tokens, principalmente resultados de ferramentas (72%), oferecendo mais variabilidade dependendo da especificidade do comando de teste. Sonnet, com variação similar, misturou definições e resultados de forma mais equilibrada.

Gemini se destaca devido ao seu uso desproporcional de tokens, atingindo pico de 350,5K, utilizando quase exclusivamente resultados de ferramentas (96%), explorando sua grande janela de contexto de 1M. Apesar de um custo menor por token, o padrão de uso inconsistente e expansivo do Gemini sem convergência entre execuções indica uma estratégia única, embora menos eficiente.

Essas descobertas ilustram disparidades consideráveis em como as ferramentas de codificação com IA gerenciam janelas de contexto, impactando tanto o desempenho quanto a eficiência de custos. Desenvolvedores devem ponderar estratégias de uso de tokens ao escolher a ferramenta apropriada para suas necessidades, particularmente para tarefas envolvendo alterações iterativas ou históricos extensos de projetos.

📖 Leia a fonte completa: HN LLM Tools

Analisando Ferramentas de Codificação com IA: Dissecando 3.177 Chamadas de API

👀 See Also

llm-idle-timeout Dispara aos 2 Minutos no N100/WSL2 Apesar da Configuração timeoutSeconds

Maggy: Uma Plataforma de Engenharia Autônoma no Claude Code com Memória entre Sessões e Aprendizado em Equipe P2P

Lucas Gerads demonstra servidores MCP para integração de osciloscópio e simulador SPICE com Claude Code

Os 171 Vetores Internos de Emoção do Claude Influenciam a Saída: Kit de Ferramentas Baseado na Pesquisa da Anthropic