Perfilador de Custos de LLM: Ferramenta de código aberto monitora gastos com APIs para justificar adoção de modelos locais

LLM Cost Profiler é uma ferramenta Python de código aberto que monitora cada chamada de API que seu código faz para OpenAI e Anthropic, mostrando exatamente quanto você está gastando, onde e por quê. A ferramenta revela quais tarefas são superfaturadas em relação à sua complexidade, fornecendo dados concretos para embasar a adoção de inferência local.
Recursos Principais e Descobertas
A ferramenta armazena tudo em SQLite local e tem licença MIT. De acordo com a fonte, ela encontrou vários exemplos específicos de desperdício em chamadas de API:
- Um classificador usando GPT-4o que gera uma de 5 categorias — uma tarefa que qualquer modelo local decente de 7B lida facilmente. Custo: ~US$ 89/semana em chamadas de API.
- Milhares de chamadas duplicadas para o mesmo prompt — sem cache algum. Inferência local com cache tornaria isso praticamente gratuito.
- Um resumidor onde 34% das chamadas eram retentativas devido a erros de formatação. Um modelo local bem ajustado com geração restrita eliminaria toda essa classe de desperdício.
O autor observa que esta ferramenta dá às equipes munição concreta para investir em infraestrutura de inferência local: "Aqui está o valor exato em dólares que economizaríamos ao migrar a tarefa X para um modelo local."
A ferramenta está disponível no GitHub em https://github.com/BuildWithAbid/llm-cost-profiler. O autor planeja adicionar suporte para rastrear custos de inferência de modelos locais também (custeio baseado em tempo de computação) e perguntou à comunidade se isso seria útil.
Esse tipo de ferramenta de perfil de custos é particularmente relevante para desenvolvedores que usam agentes de codificação com IA, pois fornece insights baseados em dados sobre onde os gastos com API podem ser ineficientes em comparação com alternativas locais.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Anchormd: Uma Ferramenta para Gerenciar Contexto Entre Sessões do Claude AI
Anchormd é uma ferramenta de código aberto que resolve a perda de contexto em sessões do Claude AI, indexando planos curados em markdown em um grafo de conhecimento pesquisável. Ela permite que os agentes carreguem visões gerais do projeto no início da sessão e consultem detalhes específicos conforme necessário.

Storybloq: Um Rastreador de Projetos para Claude Code com App Mac, CLI e MCP
Storybloq é um rastreador de projetos gratuito e de código aberto que reside em .story/ dentro do seu repositório. Inclui um aplicativo para Mac (App Store), uma CLI e um servidor MCP para expor tickets, problemas e handovers de sessão ao Claude Code.

Desenvolvedor compartilha mais de 10 servidores MCP para liquidação de agentes de IA, reputação e micropagamentos
Um desenvolvedor construiu o BlindOracle no Claude Code com mais de 100 agentes e criou mais de 10 servidores MCP para liquidação, reputação e micropagamentos. A arquitetura inclui previsões privadas de commit-reveal, pontuação on-chain, micropagamentos por solicitação e atestado verificável de agentes.

Duas Habilidades de Código do Claude para Gerenciar a Configuração CLAUDE.md
Um desenvolvedor criou duas habilidades Claude Code para lidar com a configuração do CLAUDE.md: /cc-init cria configurações enxutas para novos projetos, e /cc-optimize analisa projetos existentes em busca de bloat e problemas. Ambas visam reduzir a sobrecarga de contexto e melhorar o seguimento de instruções.