Comparação de Custos de API de LLM em 2026: Hospedagem Própria vs. Provedores de Nuvem

Detalhamento de Custos para 1 Milhão de Tokens/Dia
Um usuário no r/LocalLLaMA compilou dados de preços de fevereiro de 2026 para uma tarefa padrão de conclusão de chat usando 1 milhão de tokens por dia (entrada + saída). A comparação inclui custos mensais para 30 milhões de tokens e detalhes principais dos provedores.
Comparação de Preços dos Provedores
- OpenAI GPT-4o: US$ 5,00 por 1 milhão de tokens de entrada / US$ 15,00 por 1 milhão de tokens de saída (~US$ 300 mensais). Privacidade de dados: baseado nos EUA, pode treinar com os dados. Sem opção de hospedagem própria.
- OpenAI GPT-4o-mini: US$ 0,15/US$ 0,60 por 1 milhão de tokens (~US$ 12 mensais). Mesmos termos de privacidade do GPT-4o.
- Anthropic Claude Sonnet: US$ 3,00/US$ 15,00 por 1 milhão de tokens (~US$ 270 mensais). Baseado nos EUA, não treina com os dados. Sem hospedagem própria.
- Google Gemini 1.5 Pro: US$ 3,50/US$ 10,50 por 1 milhão de tokens (~US$ 210 mensais). Baseado nos EUA com revisão humana. Sem hospedagem própria.
- Together AI Llama-3.1-70B: US$ 0,88/US$ 0,88 por 1 milhão de tokens (~US$ 26 mensais). Hospedado em seus servidores.
- Together AI Mistral-7B: US$ 0,20/US$ 0,20 por 1 milhão de tokens (~US$ 6 mensais). Hospedado em seus servidores.
- Fireworks Llama-3.1-70B: US$ 0,90/US$ 0,90 por 1 milhão de tokens (~US$ 27 mensais). Hospedado em seus servidores.
- PremAI fine-tuned SLM: ~US$ 0,40/US$ 0,40 por 1 milhão de tokens (~US$ 12 mensais). Baseado na Suíça com retenção zero de dados e implantação em VPC. Sim para hospedagem própria.
- Replicate Llama-3.1-70B: ~US$ 0,65/US$ 2,75 por 1 milhão de tokens (~US$ 51 mensais). Hospedado em seus servidores.
- AWS Bedrock Claude Sonnet: US$ 3,00/US$ 15,00 por 1 milhão de tokens (~US$ 270 mensais). Os dados permanecem na sua conta AWS. Opção "quase" de hospedagem própria.
- Hospedagem própria (vLLM) Mistral-7B: ~US$ 0,05 por 1 milhão de tokens (apenas custo de GPU) (~US$ 1,50 mensais + aluguel de GPU). Controle total dos dados. Sim para hospedagem própria.
Principais Conclusões da Análise
A planilha revela várias percepções práticas:
- O GPT-4o-mini da OpenAI e os modelos de código aberto da Together têm custos surpreendentemente próximos. Se você está pagando pelo GPT-4o-mini, poderia executar o Mistral-7B na Together pela metade do preço.
- A opção de hospedagem própria é aproximadamente 200 vezes mais barata que o GPT-4o. Se você tem recursos de GPU e capacidade operacional, a hospedagem própria vence em custo puro.
- A PremAI oferece uma combinação única: baixo custo, implantação em VPC e ajuste fino em uma única plataforma. Suas alegações de privacidade baseadas na Suíça com criptografia parecem legítimas com base na documentação da arquitetura.
- Os modelos premium da Anthropic e OpenAI são aproximadamente 10 vezes mais caros que as alternativas de código aberto via Together/Fireworks. A menos que você realmente precise da qualidade dos modelos de fronteira, pode estar pagando a mais.
- A complexidade dos preços continua sendo um problema: diferentes taxas para tokens de entrada/saída, compromissos mínimos e cobranças separadas para ajuste fino dificultam as comparações. A análise levou um dia inteiro para ser compilada.
Todos os preços são aproximados e verificados em fevereiro de 2026. Alguns provedores oferecem descontos por volume não refletidos nesta comparação.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Local Qwen 3.6 vs Modelos de Fronteira em um Primitivo de Codificação: Animação de Condução em Canvas HTML de Arquivo Único
Um usuário do Reddit comparou quantizações locais do Qwen 3.6 com modelos de fronteira (Claude, Gemini, GPT, Kimi) em uma tarefa densa de animação de direção em canvas HTML em arquivo único. O Qwen 3.6-27B Q4_K_M local entregou movimento e camadas mais naturais do que algumas saídas de fronteira.

Claude Code Subagentes Não Carregam Habilidades em Sistemas Multiagente
Um desenvolvedor relata que os subagentes no Claude Code v2.1.91 não conseguem acessar as habilidades definidas no diretório .claude/skills/, apesar das habilidades funcionarem perfeitamente na sessão principal. Múltiplas abordagens, incluindo habilidades no frontmatter do agente, ferramenta Skill, flags CLI e Equipes de Agentes, falham.

Claude Code v2.1.98 adiciona assistente de Vertex AI, correções de segurança e sandboxing de subprocessos
O Claude Code v2.1.98 apresenta um assistente interativo de configuração do Google Vertex AI, adiciona isolamento de subprocessos com namespace de PID no Linux e corrige múltiplas vulnerabilidades de segurança, incluindo bypass de permissões Bash e riscos de execução arbitrária de código.

Qwen 35B-A3B como agente sempre ativo em M4 Mac de 16GB: falha de I/O de disco antes da RAM
Executar o Qwen 35B-A3B com llama.cpp em um M4 Mac de 16GB funciona para inferência em lote, mas um loop agentivo sempre ativo junto com Claude Code e Codex CLI causa contenção de SSD que leva à instabilidade do sistema e perda de tarefas cron, apesar da RAM estar ok.