free-claude-code adiciona suporte GLM-5 via NVIDIA NIM e se expande para OpenRouter e Discord

O free-claude-code, um proxy leve que converte as requisições da API Anthropic do Claude Code para formatos de outros provedores, foi atualizado com suporte ao GLM-5 através do NVIDIA NIM e vários novos recursos. A ferramenta permite que desenvolvedores utilizem a interface de codificação agentiva do Claude Code sem uma assinatura da Anthropic, roteando as requisições para backends alternativos.
Principais atualizações
A NVIDIA adicionou correções de chamada de ferramentas para z-ai/glm5 ao seu inventário NIM, e o free-claude-code agora oferece suporte completo. O nível gratuito do NVIDIA NIM fornece 40 requisições por minuto sem necessidade de cartão de crédito.
- Suporte ao OpenRouter: Use qualquer modelo na plataforma do OpenRouter como seu backend, incluindo seus modelos gratuitos
- Integração com bot do Discord: Controle o Claude Code remotamente via Discord além do suporte existente ao bot do Telegram
- Suporte ao provedor local LMStudio: Execute modelos totalmente localmente
- Suporte à extensão VSCode do Claude Code
Vantagens técnicas
- Opções sem custo: O nível gratuito do NVIDIA NIM (40 reqs/min) e os modelos gratuitos do Open Router não exigem pagamento
- Preservação de pensamento intercalado: Tokens nativos de pensamento intercalado são preservados entre turnos, permitindo que modelos como GLM-5 e Kimi-K2.5 aproveitem o raciocínio de turnos anteriores
- 5 otimizações integradas: Detecção rápida de prefixo, pular geração de título, pular modo de sugestão e outras otimizações reduzem chamadas desnecessárias de LLM
- Controle remoto: Bots do Telegram e Discord permitem enviar tarefas de codificação de dispositivos móveis com bifurcação e persistência de sessão
- Limitador de taxa configurável: Limitação de taxa de janela deslizante para sessões concorrentes
- Suporte fácil a modelos: Novos modelos lançados no NVIDIA NIM podem ser usados sem alterações de código
- Extensibilidade: Estrutura de código modular facilita a adição de provedores personalizados ou plataformas de mensagens
Modelos suportados
Modelos populares incluem z-ai/glm5, moonshotai/kimi-k2.5, minimaxai/minimax-m2.5, qwen/qwen3.5-397b-a17b e stepfun-ai/step-3.5-flash. A lista completa está disponível em nvidia_nim_models.json. Com OpenRouter e LMStudio, virtualmente qualquer modelo pode ser usado como backend.
O desenvolvedor está atualmente trabalhando na seleção automática de modelos baseada em disponibilidade e qualidade. O projeto é de código aberto com issues e PRs bem-vindos.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Orkestra: Camada de Roteamento de LLM com Consciência de Custos para OpenClaw Reduz Custos de API em 60-80%
Orkestra é uma camada de roteamento modular que fica na frente das chamadas de LLM no OpenClaw, usando classificação semântica para direcionar prompts para níveis de modelo econômico, equilibrado ou premium. A abordagem reduziu os custos de API em 60-80% sem reescrita de prompts ou regras complexas.

Habilidade do Agente de Recursos Modernos do CSS: Impor Práticas Modernas de CSS em Agentes de Codificação de IA
Uma habilidade de agente que impõe mais de 57 recursos modernos de CSS entre cor, layout, seletores, animação, tipografia, posicionamento e padrões de componentes, compatível com Claude Code, Cursor, Windsurf, Codex, Cline e GitHub Copilot.

Resultados de Benchmark: 15 LLMs Testados em 38 Tarefas de Fluxo de Trabalho Real
Um desenvolvedor avaliou 15 LLMs em nuvem e locais em 38 tarefas de seu fluxo de trabalho real, incluindo transformações de CSV, contagem de letras, aritmética modular e conformidade de formato. Claude 3.5 Sonnet e Opus obtiveram 100%, mas o Sonnet custa 3,5 vezes menos por chamada.

Pneuma: Um Ambiente de Desktop Gerado por IA Onde o Software Se Materializa a Partir de Descrições
Pneuma é um ambiente de computação desktop onde você descreve o que deseja—um monitor de CPU, jogo, aplicativo de notas ou visualizador de dados—e um programa funcional se materializa em segundos. O sistema gera módulos autônomos em Rust, os compila para WebAssembly e os executa em instâncias sandboxed do Wasmtime com renderização GPU via wgpu.