Análise: Os custos reais de computação da Anthropic para usuários do Claude Code são muito mais baixos do que o valor de US$ 5 mil relatado.

Um artigo recente da Forbes alegou que o plano Claude Code Max da Anthropic de US$ 200/mês pode consumir cerca de US$ 5.000 em computação, sugerindo que a empresa está perdendo dinheiro com inferência. Esta análise examina por que essa figura é enganosa.
Preços da API vs custos reais de computação
A cifra de US$ 5.000 vem dos preços de varejo da API da Anthropic: US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída para o Opus 4.6. A esses preços, um usuário pesado poderia realmente acumular US$ 5.000/mês em uso equivalente à API.
No entanto, os preços da API não refletem o que realmente custa à Anthropic servir esses tokens. Para estimar os custos reais de inferência, observe os preços competitivos para modelos similares no OpenRouter:
- Qwen 3.5 397B-A17B (comparável ao Opus 4.6): US$ 0,39 por milhão de tokens de entrada, US$ 2,34 por milhão de tokens de saída
- Kimi K2.5 1T parâmetros com 32B ativos: US$ 0,45 por milhão de tokens de entrada, US$ 2,25 por milhão de tokens de saída
- Leituras de cache DeepInfra no Kimi K2.5: US$ 0,07/MTok vs US$ 0,50/MTok da Anthropic
A matemática real
Esses provedores do OpenRouter estão administrando negócios com margens, não tomando perdas enormes. Se eles podem servir modelos comparáveis a aproximadamente 10% do preço da API da Anthropic, os custos reais de computação provavelmente estão nessa faixa.
Portanto:
- Usuário pesado consumindo US$ 5.000 em tokens equivalentes à API ≈ US$ 500 em custo real de computação
- Perda em usuários extremamente pesados: US$ 300/mês (não US$ 4.800)
- A maioria dos usuários não se aproxima dos limites: A Anthropic diz que menos de 5% dos assinantes seriam afetados pelos limites semanais
- Uso típico do plano Max 20x em torno de 50% do orçamento semanal de tokens ≈ ponto de equilíbrio ou lucrativo para a Anthropic
Quem realmente enfrenta custos de US$ 5.000?
A cifra de US$ 5.000 vem da análise interna da Cursor. Para a Cursor, o número é aproximadamente correto porque eles pagam os preços de varejo da API da Anthropic (ou próximos a eles) pelo acesso ao Opus 4.6.
Desenvolvedores querem modelos da Anthropic na Cursor devido ao reconhecimento da marca e às vantagens de desempenho atuais sobre alternativas abertas mais baratas.
Implicações mais amplas
A Anthropic não é lucrativa no geral devido aos custos de treinamento, salários de pesquisadores e compromissos de computação - não à inferência. Em uma base por usuário, por token para inferência, a Anthropic provavelmente é lucrativa em média para assinantes do Claude Code.
A narrativa "a inferência de IA é um poço sem fundo" beneficia os laboratórios de fronteira ao desencorajar a concorrência e fazer suas vantagens competitivas parecerem mais profundas do que realmente são.
📖 Read the full source: HN AI Agents
👀 See Also

Nove Padrões Comuns de Falha em Agentes de Codificação de IA e Validação Pré-Execução
Uma postagem no Reddit identifica nove padrões específicos de falha que comumente fazem os agentes de codificação de IA falharem, incluindo tratamento incompleto de enumerações, caminhos nulos silenciosos e importações alucinadas. O autor relata que implementar uma etapa de validação antes da execução captura cerca de 70% dessas falhas.

Postagem no Reddit critica fluxos de trabalho de Agentes CEO Virtuais, defende abordagem baseada em habilidades
Uma publicação no Reddit no r/openclaw critica a criação de agentes de IA com títulos de cargo como 'desenvolvedor backend' ou 'growth hacker' como uma sobrecarga desnecessária, propondo, em vez disso, empacotar habilidades como competências reutilizáveis que podem ser chamadas quando necessário.

Os modelos Bonsai 1-bit Qwen da PrismML testados: 107 t/s de geração em 8GB de VRAM
Os modelos Bonsai da PrismML são versões quantizadas de 1 bit do Qwen3 8B, 4B e 1.7B que alcançam 107 tokens/segundo na geração e >1114 t/s no processamento de prompts em uma RTX 4060 com 8GB de VRAM, com requisitos de memória significativamente reduzidos.

Nemotron 3 4B tem desempenho inferior ao Qwen 3.5 4B em benchmarks exigentes
Um usuário do Reddit testou o Nemotron 3 4B Q8 contra o Qwen 3.5 4B Q8 em tarefas complexas de matemática e programação, constatando que o Nemotron falhou em produzir raciocínio correto e saída estruturada, enquanto o Qwen passou em todos os testes.