Limites de Taxa do Claude Code Podem Ser Devido à Sobrecarga da Janela de Contexto de 1M

Expansão da Janela de Contexto Causando Sobrecarga no Sistema
A Anthropic lançou recentemente o Opus 4.6 com uma janela de contexto de 1 milhão de tokens para todos os usuários. Após esse lançamento, os usuários relataram dois problemas significativos: desempenho degradado em tarefas longas e aumento de problemas de capacidade. Inicialmente, não havia opção para recusar o modelo de contexto de 1M.
A Teoria: Compressão de Contexto Ineficiente
A análise do usuário do Reddit sugere que o sistema de compressão de contexto do Claude Code—que resume o histórico antigo da conversa para economizar tokens—não é agressivo o suficiente para a janela de contexto expandida de 1M. Isso significa que cada sessão do Claude Code provavelmente está enviando mais dados brutos de tokens por solicitação do que o necessário. Quando multiplicado por toda a base de usuários, isso cria uma sobrecarga no servidor, pois os usuários enviam inadvertidamente contextos inchados contendo informações desnecessárias.
Impacto nos Limites de Uso
A teoria postula que a solução de curto prazo da Anthropic foi reduzir os limites de uso para compensar o aumento da carga do servidor. Isso explica por que os limites parecem ter encolhido—os usuários estão consumindo tokens mais rapidamente por tarefa, não por causa de reduções intencionais de limite pela Anthropic.
Alternativa Identificada
Ontem, a Anthropic reintroduziu silenciosamente o modelo mais antigo, sem contexto de 1M, como uma opção. Usuários que mudaram para esse modelo relataram estabilidade visivelmente melhorada e consumo mais lento de seus limites de uso, apoiando a teoria sobre as ineficiências da janela de contexto.
Ação Recomendada
Para alívio imediato dos limites de taxa e problemas de estabilidade, tente desativar o modelo de contexto de 1M. A solução de longo prazo provavelmente requer algoritmos de compressão de contexto aprimorados. Uma vez implementados, isso poderia permitir que a Anthropic restaurasse os limites de uso anteriores.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Google's TimesFM 2.5: modelo de séries temporais com 200 milhões de parâmetros e contexto de 16k
O Google Research lançou o TimesFM 2.5, um modelo de base com apenas decodificador de 200 milhões de parâmetros para previsão de séries temporais, com comprimento de contexto de 16k e previsão de quantis contínuos até o horizonte de 1k.

HC1 de Taalas: Acelerando Inferência de IA com Silício Personalizado
A Taalas revela a plataforma HC1, oferecendo a inferência de IA mais rápida e de baixo custo do mundo por meio de design de hardware específico para modelos. Alcança 17 mil tokens/segundo no Llama 3.1 8B.

Investigação de Bug do ACP: Incompatibilidade de Protocolo Causa Erro 'metadata is missing' com Ollama Local
Um bug confirmado na integração ACP/OpenClaw impede que os comandos de spawn do acpx funcionem com modelos locais do Ollama devido a uma incompatibilidade de protocolo, onde o acpx espera JSON mas recebe saída de texto.

Dados do HN confirmam que a participação de artigos do arXiv está caindo; o auge do hype em torno dos LLMs já passou?
Dylan Castillo usou Claude para consultar dados do BigQuery do HN, descobrindo que a porcentagem de histórias da página inicial que linkam para o arXiv vem diminuindo rapidamente nos últimos meses, após um pico dominado por LLMs em 2023–2026.