Como Substituir Pipes de IA por Comandos Git Shell

De pipeline complexo para acesso shell simples

A equipe originalmente construiu o DiffMem, um sistema de memória baseado em git para agentes de IA com histórico de versões como contexto. Sua camada de recuperação usava sentence-transformers para pontuação de similaridade de cosseno, rank-bm25 para busca por palavras-chave e um pipeline de LLM em duas etapas para destilar consultas e sintetizar resultados. Isso resultou em uma imagem Docker de 3GB (devido a dependências do PyTorch), taxas de timeout de 10% em usuários pesados e inicializações frias que reconstruíam um índice BM25 na memória a cada vez.

A percepção: LLMs já conhecem git

A percepção veio ao reconhecer que comandos Unix são densamente representados nos dados de treinamento de LLMs através de bilhões de arquivos README, scripts de CI e respostas do Stack Overflow. A equipe percebeu que estavam extraindo informações do git com seu próprio código e alimentando um modelo que já entende comandos git.

A solução: Uma função de ferramenta

Eles substituíram tudo por uma única ferramenta:

{
  "name": "run",
  "description": "Execute um comando somente leitura no repositório de memória",
  "parameters": {
    "command": "Comando shell (suporta encadeamento com |, &&, ||, ;)"
  }
}

Como o agente funciona

O agente segue um protocolo fixo: ler o manifesto da entidade, executar uma sondagem temporal no log de commits, agrupar investigações em uma única chamada de ferramenta, gerar um plano de recuperação e então parar. Ele retorna ponteiros, não conteúdo, mantendo o contexto enxuto.

O agente lê sinais leves durante as rodadas:

head -30 para estrutura
grep -n para palavras-chave
git diff HEAD~3.. para alterações recentes

Exemplo real: Encontrando conexões através do histórico de commits

Quando um usuário enviou uma mensagem de aniversário mencionando sentir-se isolado, o agente executou:

git log --format='%h %ad' --date=relative --name-only -15

Isso revelou que wife.md e company.md foram alterados na mesma sessão, e um colega-chave apareceu em 2 das últimas 3 sessões. A busca por palavras-chave (BM25) nunca teria encontrado company.md a partir de "sentindo-se isolado no meu aniversário", mas a conexão temporal no histórico git foi o que importou.

Na rodada 3, o agente compôs uma única chamada de ferramenta com nove comandos encadeados com ponto e vírgula:

git diff HEAD~2.. -- memories/people/wife.md; git log --stat -5 -- memories/people/wife.md; head -30 memories/people/wife.md; grep -n "birthday|surgery|stress" memories/people/wife.md; tail -50 timeline/2026-03.md; git diff HEAD~3.. -- timeline/2026-03.md; grep -n "project|deliverable" memories/contexts/company.md; git diff HEAD~2.. -- memories/contexts/company.md; git diff HEAD~1.. -- memories/people/colleague.md

Resultados

A saída final foi um plano de recuperação JSON com diffs git específicos, níveis de prioridade e estimativas de tokens. Isso permitiu a exclusão de rank-bm25, sentence-transformers, scikit-learn e numpy. A imagem Docker caiu ~3GB, o servidor inicia mais rápido, usa menos memória e a taxa de timeout de 10% desapareceu. O que permanece: requests, openai e gitpython.

📖 Read the full source: r/LocalLLaMA

Substituindo pipelines de recuperação complexos por comandos simples de shell do git para agentes LLM

De pipeline complexo para acesso shell simples

A percepção: LLMs já conhecem git

A solução: Uma função de ferramenta

Como o agente funciona

Exemplo real: Encontrando conexões através do histórico de commits

Resultados

👀 See Also

AlterSpec v1.0: Aplicação de Políticas em Tempo de Execução para Agentes de IA

Atualização do Cliente React OpenClaw Adiciona Modelo por Agente, Ferramenta CLI e Inicialização Automática

Painel web de código aberto monitora o uso de tokens do Claude para fluxos de trabalho remotos

Explorando as Diretrizes de Código Claude: Uma Abordagem Minimalista em 65 Linhas