Qwen3.6:27b + Agente Go Personalizado: Uma Alternativa Local ao Claude Code

Um desenvolvedor (codehamr) que administra um negócio de integração local de LLMs descreve experimentos com modelos locais como alternativa para o Claude Code. Eles relatam que o Qwen3.6:27b no Q8 em uma RTX 6000 com 96GB e contexto de 128k oferece uma experiência de codificação semelhante ao Claude Code, e observam que uma RTX 5090 (32GB) no Q4_M pode alcançar resultados comparáveis.
Para a camada de agente, eles criaram um único binário Go minimalista chamado codehamr (open source MIT) — sem plugins, sem MCP, sem temas. O agente lida com busca, dependências e manipulação de arquivos através do bash sob demanda. O repositório está disponível em: https://github.com/codehamr/codehamr
Detalhes Principais
- Modelo: Qwen3.6:27b na quantização Q8, rodando em RTX 6000 (96GB) com contexto de 128k — excessivo para um modelo de 30B.
- Alternativa de consumo: RTX 5090 (32GB) no Q4_M deve oferecer experiência de codificação semelhante com boa disciplina de prompts.
- Construção do agente: Binário Go personalizado — minimalista, sem plugins, sem MCP. Usa bash para busca, dependências, operações de arquivo.
- Licença: MIT open source, disponível para fork ou ignorar.
O desenvolvedor enfatiza que cada passo em direção a LLMs locais reduz a dependência de ferramentas em nuvem. Esta configuração, combinada com prompts disciplinados, é a primeira configuração local onde eles não sentem falta do Claude Code.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

jsongrep: Uma Ferramenta de Consulta JSON Baseada em DFA Que Supera o jq em Benchmarks
jsongrep é uma ferramenta de linha de comando baseada em Rust para consultar documentos JSON usando uma sintaxe de linguagem regular que é compilada para autômatos finitos determinísticos (DFA), alcançando tempos de busca mais rápidos do que jq, jmespath, jsonpath-rust e jql em benchmarks.

Painel de Código Aberto Revela Custos Reais de Computação do Claude Code
Um desenvolvedor engenhou reversamente a fórmula de limite de taxa do Claude Code para construir um painel local que mostra a porcentagem de uso em tempo real, custos reais em dólares, taxa de consumo, horários de pico e quais habilidades/hooks estão sendo acionados. A ferramenta revelou que um plano de US$ 100/mês consumiu US$ 13.286 em computação de API equivalente em um mês.

O Agente Subordinado Cético de Planos do Claude Code Identifica Lacunas de Segurança em Planos Gerados
Um desenvolvedor descobriu o subagente cético de planos do Claude Code, que identifica lacunas e problemas em planos de desenvolvimento gerados por IA, capturando especialmente preocupações de segurança que não eram inicialmente óbvias. O agente trabalha junto com o subagente xerife de segurança, previamente conhecido, para melhorar a qualidade dos planos.

Pesquisa semântica local para conversas de IA com fastembed e LanceDB
Um desenvolvedor indexou 368 mil mensagens de conversas de IA localmente usando fastembed para embeddings baseados em CPU e LanceDB como armazenamento vetorial serverless, alcançando latência de busca p50 de 12ms sem chaves de API.