Agente de Codificação Pi com Qwen 35B Q2: Usando Sistema de Arquivos como Memória Externa e Impondo Guardas de Contexto

Um usuário do Reddit compartilhou sua abordagem para codificação agentiva com LLMs locais, construída sobre o agente de codificação Pi com Qwen 35B (Q2_K_XL quant via LM Studio). A ideia central: tratar o LLM como um processador lógico, não como um banco de dados de contexto. A implementação impõe guardiões rigorosos no limite da API — o modelo não pode contorná-los.
Principais restrições impostas pelo sistema
- Limite de escrita/edição: Rejeita qualquer saída com mais de 100 linhas. O modelo deve escrever um esqueleto primeiro e depois preencher uma seção de cada vez. Se tentar despejar um arquivo completo, a chamada é bloqueada com instruções para dividir o trabalho.
- Teto do bloco de pensamento: Se o raciocínio do modelo exceder 2000 caracteres, ele recebe uma correção para escrever conclusões no disco e prosseguir.
- Monitor de contexto: A 65% de uso do contexto, o modelo é instruído a escrever seu estado em arquivos. A 80%, tudo para — o modelo escreve seu 'cérebro' no disco enquanto ainda está coerente.
- Saída persistente: Se o modelo der uma resposta longa sem escrever um arquivo, ele é instruído a salvar descobertas em um arquivo de etapa. Nada permanece apenas no contexto.
Estrutura de cérebro externo
O sistema usa diretórios .think/ e .plan/ como memória externa do modelo. Cada etapa, decisão e descoberta é escrita em um arquivo. Quando o contexto comprime, o modelo lê suas próprias anotações de volta. O propósito da sessão é salvo separadamente em _purpose.md e reinjetado após a compressão de contexto, preservando o objetivo original.
Destilação de conhecimento
Um comando /distill percorre uma base de código, constrói um grafo de importações, ordena os arquivos topologicamente e faz o modelo resumi-los um por turno em uma base de conhecimento. O manifesto é dividido em páginas de 50 arquivos para evitar consumir todo o contexto. Usuários podem colocar arquivos como svelte5-gotchas.md ou astro-gotchas.md em uma pasta de conhecimento; uma chamada LLM isolada seleciona quais são relevantes para a tarefa atual, e apenas o conteúdo é injetado na conversa principal.
Resultado no mundo real
O usuário pediu ao modelo para construir um jogo de avião em Three.js. A primeira tentativa escreveu 652 linhas em uma única chamada — o guardião rejeitou. O modelo replanejou, escreveu um esqueleto e depois preencheu recursos uma edição de cada vez. O resultado final foi um jogo funcional com modelo 3D de avião, obstáculos, HUD, minimapa e telas de início/fim de jogo — tudo em Q2 quant.
A configuração completa roda em quantização Q2_K_XL como piso; o usuário nota que Q4 ou Q8 devem produzir melhores resultados. O código está disponível no GitHub: github.com/Kodrack/Pi-forge.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Total Recall: Conhecimento Local de Grafos para Histórias de Conversação de Código do Claude
Total Recall é um sistema de código aberto que importa transcrições de conversas em JSONL do Claude Code para um banco de dados SQLite com busca de texto completo e embeddings vetoriais, tornando o histórico de conversas pesquisável entre sessões. Ele recupera trechos reais de conversas com contexto consciente do DAG e inclui um importador do ChatGPT.

OpenCawt: Sistema Judiciário de Código Aberto para Disputas de Agentes de IA
OpenCawt é um sistema judiciário de código aberto para agentes autônomos que permite que eles registrem disputas, apresentem evidências, recebam decisões estruturadas e seluem resultados como registros públicos verificáveis. Inclui uma camada de protocolo leve chamada OCP para formalizar acordos e decisões dentro de outras aplicações.

Clawback: Implementação baseada em hooks dos loops de verificação vazados do Claude
Clawback é um projeto do GitHub que reimplementa os loops de verificação do vazamento do mapa de origem do Claude como ganchos mecânicos em vez de prompts. Inclui ganchos de parada, PreToolUse, PostToolUse e PostCompact que não podem ser ignorados pelo modelo sob pressão de contexto.

Sistema de memória de código aberto para agentes LLM alcança altas pontuações em benchmarks
Um sistema de memória persistente para Claude Code e OpenClaw fornece aos agentes LLM continuidade de contexto entre sessões, alcançando 90,8% no LoCoMo e 89,1% nos benchmarks LongMemEval. A arquitetura baseada em adaptadores funciona com qualquer framework de agentes.