LLM Circuit Finder : Dupliquez 3 couches pour renforcer le raisonnement sans entraînement

✍️ OpenClawRadar📅 Publié: March 19, 2026🔗 Source
LLM Circuit Finder : Dupliquez 3 couches pour renforcer le raisonnement sans entraînement
Ad

L'outil llm-circuit-finder implémente et étend la méthode RYS de David Ng pour découvrir et exploiter des 'circuits de raisonnement' cachés dans les modèles de transformateurs. La découverte principale : certains blocs contigus de couches agissent comme des unités cognitives indivisibles. Les dupliquer lors du passage avant - mêmes poids, pas d'entraînement, pas de fusion - rend les modèles mesurablement plus intelligents sur des capacités spécifiques.

Résultats Clés

Devstral-Small-2-24B avec les couches 12, 13, 14 dupliquées une fois :

  • BBH Raisonnement Déductif : 0,22 → 0,76 (+245%)
  • GSM8K (strict) : 0,48 → 0,64 (+33%)
  • MBPP (génération de code) : 0,72 → 0,78 (+8%)
  • Amélioration moyenne : +8% sur toutes les métriques sans aucune dégradation

Qwen2.5-Coder-32B avec les couches 7, 8, 9 dupliquées une fois :

  • Sonde de raisonnement (causal + logique + navigation) : 76,5% → 94,1% (+23%)

Comment Ça Marche

Les transformateurs s'organisent pendant l'entraînement en circuits fonctionnels - des unités de traitement multi-couches qui effectuent des opérations cognitives complètes. Ces circuits sont indivisibles : dupliquer une seule couche ne fait presque rien, mais dupliquer le bon bloc de 3-4 couches donne au modèle un deuxième passage dans son pipeline de raisonnement.

Différents modèles ont différents circuits à différents endroits :

  • Devstral-24B (40 couches) : circuit de raisonnement aux couches 12-14
  • Qwen2.5-32B (64 couches) : circuit de raisonnement aux couches 7-9

Les limites sont nettes. Décaler le bloc d'une couche dans une direction ou l'autre fait disparaître l'amélioration ou l'inverse.

Ad

Différents Modèles de Duplication Créent Différents Modes

Mêmes poids sur disque, même VRAM pour le modèle de base, juste un routage différent :

  • Double passage 13-16 : Maths ↑↑, EQ ↑
  • Triple passage 13-16 : Maths ↑, EQ ↑↑
  • Entrelacé 13,13,14,14,15,15,16 : Maths ↑↑↑, EQ ↓ (mode mathématique pur)
  • Quadruple passage 13-16 : Maths —, EQ ↑↑ (mode EQ, maths neutre)

Démarrage Rapide

Trouvez des circuits dans votre modèle :

pip install gguf requests tqdm
python sweep.py \
  --model /chemin/vers/model.gguf \
  --llama-server /chemin/vers/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Appliquez un circuit connu :

# Dupliquer les couches 12-14 dans Devstral
python layer_path.py model.gguf improved.gguf \
  -p " 0..14,12,13,14,15..39 " -v

Dupliquer les couches 7-9 dans Qwen2.5-32B

python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v

Exemple de triple passage

python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Validez avec des benchmarks établis :

# Démarrer le serveur avec le modèle modifié
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Exécuter lm-evaluation-harness

L'ensemble du processus de découverte - balayage, découverte, validation - a été réalisé sur deux GPU AMD grand public (RX 7900 XT + RX 6950 XT) en une soirée.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Amélioration des sessions de code Claude avec claude-self-improve
Tools

Amélioration des sessions de code Claude avec claude-self-improve

Claude-self-improve est un outil en ligne de commande qui améliore les performances de l'IA Claude Code en analysant les données de session et en mettant à jour automatiquement les fichiers de mémoire.

OpenClawRadar
Claude Cowork contre OpenClaw : Où le récit du remplacement tient et où il se brise
Tools

Claude Cowork contre OpenClaw : Où le récit du remplacement tient et où il se brise

Claude Cowork propose des sessions de bureau persistantes avec une faible friction, tandis qu'OpenClaw conserve ses avantages en matière d'automatisation au niveau système, d'écosystèmes de compétences et de contrôle des flux de travail.

OpenClawRadar
Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.
Tools

Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.

Distil Labs a publié un pipeline de bout en bout qui affine un modèle Qwen3-0.6B pour atteindre 79,5 % de correspondance exacte sur l'appel de fonctions pour la domotique IoT, surpassant un modèle enseignant de 120B de 29 points. Le pipeline utilise des traces de production pour générer des données d'entraînement synthétiques sans annotation manuelle.

OpenClawRadar
Le Benchmark OpenClaw Montre que Qwen3.5:27B Surpasse les Autres LLMs Locaux pour les Tâches d'Agent
Tools

Le Benchmark OpenClaw Montre que Qwen3.5:27B Surpasse les Autres LLMs Locaux pour les Tâches d'Agent

Un benchmark de 7 LLM locaux sur 22 tâches d'agent réelles utilisant OpenClaw a révélé que qwen3.5:27b-q4_K_M a obtenu 59,4 %, tandis que le deuxième, qwen3.5:35b, n'a obtenu que 23,2 %. La plupart des modèles n'ont pas pu trouver des outils de base comme les fonctions de messagerie.

OpenClawRadar