Cursor e Claude Code: Contexto Inflado Mata o Raciocínio de IA

Um desenvolvedor no r/LocalLLaMA auditou seus logs de API e cargas de prompt após notar picos de uso de tokens e deterioração da qualidade dos agentes após ~20 interações. A conclusão: os modelos não estão ficando lobotomizados; eles estão sufocando em suas próprias janelas de contexto infladas.

Os Quatro Erros Estruturais

Após inspecionar o que Cursor e Claude Code realmente fazem em um repositório de 10k+ linhas, o autor identificou quatro padrões:

Exploração cega: O agente recursivamente busca e despeja ~40 arquivos diferentes no contexto apenas para encontrar uma função utilitária. Frequentemente ele perde um componente existente e alucina uma duplicata do zero.
Ingestão bruta: Despejar um arquivo de 2.000 linhas no prompt para atualizar uma interface de 5 linhas. Desperdiça enormes quantidades de tokens de contexto.
Diarréia de ferramentas: Logs de teste verbosos e definições massivas de ferramentas MCP consomem ~30k tokens antes do modelo gerar um único token de código.
Memória de peixinho: Cada sessão começa do zero — sem consciência do projeto — então os mesmos arquivos são relidos repetidamente.

Ponto de Virada em 80% do Contexto

Assim que o contexto atinge ~80% de capacidade com ruído, o mecanismo de atenção do modelo degrada-se bruscamente. O QI visivelmente cai à temperatura ambiente, e ele começa a destruir a arquitetura. RAG de chunking padrão não resolve isso porque é lixo para lógica — o agente permanece cego à estrutura do código até queimar tokens lendo texto bruto.

Solução Proposta: AST ou Banco de Grafos

O autor pede um agente open-source que analise o código em uma AST ou banco de dados de grafos antes de consumir contexto, para que entenda a estrutura sem desperdiçar tokens em texto bruto. Isso evitaria o spaghetti arquitetural que custa 5 horas de correção para cada 1 hora economizada na digitação.