Pi Coding Agent com Qwen 35B Q2: Guardas de Contexto e Memória Externa

Um usuário do Reddit compartilhou sua abordagem para codificação agentiva com LLMs locais, construída sobre o agente de codificação Pi com Qwen 35B (Q2_K_XL quant via LM Studio). A ideia central: tratar o LLM como um processador lógico, não como um banco de dados de contexto. A implementação impõe guardiões rigorosos no limite da API — o modelo não pode contorná-los.

Principais restrições impostas pelo sistema

Limite de escrita/edição: Rejeita qualquer saída com mais de 100 linhas. O modelo deve escrever um esqueleto primeiro e depois preencher uma seção de cada vez. Se tentar despejar um arquivo completo, a chamada é bloqueada com instruções para dividir o trabalho.
Teto do bloco de pensamento: Se o raciocínio do modelo exceder 2000 caracteres, ele recebe uma correção para escrever conclusões no disco e prosseguir.
Monitor de contexto: A 65% de uso do contexto, o modelo é instruído a escrever seu estado em arquivos. A 80%, tudo para — o modelo escreve seu 'cérebro' no disco enquanto ainda está coerente.
Saída persistente: Se o modelo der uma resposta longa sem escrever um arquivo, ele é instruído a salvar descobertas em um arquivo de etapa. Nada permanece apenas no contexto.

Estrutura de cérebro externo

O sistema usa diretórios .think/ e .plan/ como memória externa do modelo. Cada etapa, decisão e descoberta é escrita em um arquivo. Quando o contexto comprime, o modelo lê suas próprias anotações de volta. O propósito da sessão é salvo separadamente em _purpose.md e reinjetado após a compressão de contexto, preservando o objetivo original.

Destilação de conhecimento

Um comando /distill percorre uma base de código, constrói um grafo de importações, ordena os arquivos topologicamente e faz o modelo resumi-los um por turno em uma base de conhecimento. O manifesto é dividido em páginas de 50 arquivos para evitar consumir todo o contexto. Usuários podem colocar arquivos como svelte5-gotchas.md ou astro-gotchas.md em uma pasta de conhecimento; uma chamada LLM isolada seleciona quais são relevantes para a tarefa atual, e apenas o conteúdo é injetado na conversa principal.

Resultado no mundo real

O usuário pediu ao modelo para construir um jogo de avião em Three.js. A primeira tentativa escreveu 652 linhas em uma única chamada — o guardião rejeitou. O modelo replanejou, escreveu um esqueleto e depois preencheu recursos uma edição de cada vez. O resultado final foi um jogo funcional com modelo 3D de avião, obstáculos, HUD, minimapa e telas de início/fim de jogo — tudo em Q2 quant.

A configuração completa roda em quantização Q2_K_XL como piso; o usuário nota que Q4 ou Q8 devem produzir melhores resultados. O código está disponível no GitHub: github.com/Kodrack/Pi-forge.

📖 Leia a fonte completa: r/LocalLLaMA

Agente de Codificação Pi com Qwen 35B Q2: Usando Sistema de Arquivos como Memória Externa e Impondo Guardas de Contexto

Principais restrições impostas pelo sistema

Estrutura de cérebro externo

Destilação de conhecimento

Resultado no mundo real

👀 See Also

Simplificando a Automação com os Wrappers OpenClaw

Escudo de Navegador Agent: Extensão Gratuita OpenClaw Bloqueia Injeção de Prompt e Padrões Sombrios

Lançamento do Modelo Qwen 3.5 Chat com 21 Correções de Bugs para Fluxos de Trabalho de Agentes

Sx: Um Gerenciador de Pacotes Open-Source para Habilidades de IA, MCPs e Comandos