Remplacer pipelines LLM par commandes git simples

D'une pipeline complexe à un simple accès shell

L'équipe avait initialement construit DiffMem, un système de mémoire pour agents IA basé sur git avec l'historique des versions comme contexte. Leur couche de récupération utilisait sentence-transformers pour le scoring de similarité cosinus, rank-bm25 pour la recherche par mots-clés, et une pipeline LLM à deux passes pour affiner les requêtes et synthétiser les résultats. Cela a entraîné une image Docker de 3 Go (à cause des dépendances PyTorch), des taux de timeout de 10% pour les utilisateurs intensifs, et des démarrages à froid qui reconstruisaient un index BM25 en mémoire à chaque fois.

La réalisation : les LLM connaissent déjà git

L'idée est venue en reconnaissant que les commandes Unix sont densément représentées dans les données d'entraînement des LLM à travers des milliards de fichiers README, scripts CI et réponses Stack Overflow. L'équipe a réalisé qu'elle extrayait des informations de git avec son propre code pour les donner à un modèle qui comprend déjà les commandes git.

La solution : une seule fonction outil

Ils ont tout remplacé par un seul outil :

{
  "name": "run",
  "description": "Exécute une commande en lecture seule dans le dépôt de mémoire",
  "parameters": {
    "command": "Commande shell (supporte l'enchaînement avec |, &&, ||, ;)"
  }
}

Comment fonctionne l'agent

L'agent suit un protocole fixe : lire le manifeste d'entité, exécuter une sonde temporelle sur l'historique des commits, regrouper l'investigation en un seul appel outil, produire un plan de récupération, puis s'arrêter. Il retourne des pointeurs, pas du contenu, gardant le contexte léger.

L'agent lit des signaux légers pendant les tours :

head -30 pour la structure
grep -n pour les mots-clés
git diff HEAD~3.. pour les changements récents

Exemple réel : Trouver des connexions via l'historique des commits

Quand un utilisateur a envoyé un message d'anniversaire mentionnant se sentir isolé, l'agent a exécuté :

git log --format='%h %ad' --date=relative --name-only -15

Cela a révélé que wife.md et company.md avaient changé dans la même session, et qu'un collègue clé était apparu dans 2 des 3 dernières sessions. La recherche par mots-clés (BM25) n'aurait jamais trouvé company.md à partir de "se sentir isolé pour mon anniversaire", mais c'est la connexion temporelle dans l'historique git qui importait.

Au tour 3, l'agent a composé un seul appel outil avec neuf commandes enchaînées par des points-virgules :

git diff HEAD~2.. -- memories/people/wife.md; git log --stat -5 -- memories/people/wife.md; head -30 memories/people/wife.md; grep -n "birthday|surgery|stress" memories/people/wife.md; tail -50 timeline/2026-03.md; git diff HEAD~3.. -- timeline/2026-03.md; grep -n "project|deliverable" memories/contexts/company.md; git diff HEAD~2.. -- memories/contexts/company.md; git diff HEAD~1.. -- memories/people/colleague.md

Résultats

Le résultat final était un plan de récupération JSON avec des diffs git spécifiques, des niveaux de priorité et des estimations de tokens. Cela a permis de supprimer rank-bm25, sentence-transformers, scikit-learn et numpy. L'image Docker a diminué d'environ 3 Go, le serveur démarre plus vite, utilise moins de mémoire, et le taux de timeout de 10% a disparu. Ce qui reste : requests, openai et gitpython.

📖 Read the full source: r/LocalLLaMA