LLM Circuit Finder : Dupliquez 3 couches pour booster le raisonnement sans entraînement

L'outil llm-circuit-finder implémente et étend la méthode RYS de David Ng pour découvrir et exploiter des 'circuits de raisonnement' cachés dans les modèles de transformateurs. La découverte principale : certains blocs contigus de couches agissent comme des unités cognitives indivisibles. Les dupliquer lors du passage avant - mêmes poids, pas d'entraînement, pas de fusion - rend les modèles mesurablement plus intelligents sur des capacités spécifiques.

Résultats Clés

Devstral-Small-2-24B avec les couches 12, 13, 14 dupliquées une fois :

BBH Raisonnement Déductif : 0,22 → 0,76 (+245%)
GSM8K (strict) : 0,48 → 0,64 (+33%)
MBPP (génération de code) : 0,72 → 0,78 (+8%)
Amélioration moyenne : +8% sur toutes les métriques sans aucune dégradation

Qwen2.5-Coder-32B avec les couches 7, 8, 9 dupliquées une fois :

Sonde de raisonnement (causal + logique + navigation) : 76,5% → 94,1% (+23%)

Comment Ça Marche

Les transformateurs s'organisent pendant l'entraînement en circuits fonctionnels - des unités de traitement multi-couches qui effectuent des opérations cognitives complètes. Ces circuits sont indivisibles : dupliquer une seule couche ne fait presque rien, mais dupliquer le bon bloc de 3-4 couches donne au modèle un deuxième passage dans son pipeline de raisonnement.

Différents modèles ont différents circuits à différents endroits :

Devstral-24B (40 couches) : circuit de raisonnement aux couches 12-14
Qwen2.5-32B (64 couches) : circuit de raisonnement aux couches 7-9

Les limites sont nettes. Décaler le bloc d'une couche dans une direction ou l'autre fait disparaître l'amélioration ou l'inverse.

Différents Modèles de Duplication Créent Différents Modes

Mêmes poids sur disque, même VRAM pour le modèle de base, juste un routage différent :

Double passage 13-16 : Maths ↑↑, EQ ↑
Triple passage 13-16 : Maths ↑, EQ ↑↑
Entrelacé 13,13,14,14,15,15,16 : Maths ↑↑↑, EQ ↓ (mode mathématique pur)
Quadruple passage 13-16 : Maths —, EQ ↑↑ (mode EQ, maths neutre)

Démarrage Rapide

Trouvez des circuits dans votre modèle :

pip install gguf requests tqdm
python sweep.py \
  --model /chemin/vers/model.gguf \
  --llama-server /chemin/vers/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Appliquez un circuit connu :

# Dupliquer les couches 12-14 dans Devstral python layer_path.py model.gguf improved.gguf \ -p " 0..14,12,13,14,15..39 " -v Dupliquer les couches 7-9 dans Qwen2.5-32B python layer_path.py model.gguf improved.gguf -p " 0..9,7,8,9,10..63 " -v Exemple de triple passage

python layer_path.py model.gguf experiment.gguf -p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Validez avec des benchmarks établis :

# Démarrer le serveur avec le modèle modifié
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Exécuter lm-evaluation-harness

L'ensemble du processus de découverte - balayage, découverte, validation - a été réalisé sur deux GPU AMD grand public (RX 7900 XT + RX 6950 XT) en une soirée.

📖 Lire la source complète : HN LLM Tools