LLM Circuit Finder : Dupliquez 3 couches pour renforcer le raisonnement sans entraînement

L'outil llm-circuit-finder implémente et étend la méthode RYS de David Ng pour découvrir et exploiter des 'circuits de raisonnement' cachés dans les modèles de transformateurs. La découverte principale : certains blocs contigus de couches agissent comme des unités cognitives indivisibles. Les dupliquer lors du passage avant - mêmes poids, pas d'entraînement, pas de fusion - rend les modèles mesurablement plus intelligents sur des capacités spécifiques.
Résultats Clés
Devstral-Small-2-24B avec les couches 12, 13, 14 dupliquées une fois :
- BBH Raisonnement Déductif : 0,22 → 0,76 (+245%)
- GSM8K (strict) : 0,48 → 0,64 (+33%)
- MBPP (génération de code) : 0,72 → 0,78 (+8%)
- Amélioration moyenne : +8% sur toutes les métriques sans aucune dégradation
Qwen2.5-Coder-32B avec les couches 7, 8, 9 dupliquées une fois :
- Sonde de raisonnement (causal + logique + navigation) : 76,5% → 94,1% (+23%)
Comment Ça Marche
Les transformateurs s'organisent pendant l'entraînement en circuits fonctionnels - des unités de traitement multi-couches qui effectuent des opérations cognitives complètes. Ces circuits sont indivisibles : dupliquer une seule couche ne fait presque rien, mais dupliquer le bon bloc de 3-4 couches donne au modèle un deuxième passage dans son pipeline de raisonnement.
Différents modèles ont différents circuits à différents endroits :
- Devstral-24B (40 couches) : circuit de raisonnement aux couches 12-14
- Qwen2.5-32B (64 couches) : circuit de raisonnement aux couches 7-9
Les limites sont nettes. Décaler le bloc d'une couche dans une direction ou l'autre fait disparaître l'amélioration ou l'inverse.
Différents Modèles de Duplication Créent Différents Modes
Mêmes poids sur disque, même VRAM pour le modèle de base, juste un routage différent :
- Double passage 13-16 : Maths ↑↑, EQ ↑
- Triple passage 13-16 : Maths ↑, EQ ↑↑
- Entrelacé 13,13,14,14,15,15,16 : Maths ↑↑↑, EQ ↓ (mode mathématique pur)
- Quadruple passage 13-16 : Maths —, EQ ↑↑ (mode EQ, maths neutre)
Démarrage Rapide
Trouvez des circuits dans votre modèle :
pip install gguf requests tqdm
python sweep.py \
--model /chemin/vers/model.gguf \
--llama-server /chemin/vers/llama-server \
--tmpdir /dev/shm/rys \
--results pass.jsonl \
--block-sizes 3 4 5 \
--stride 1 \
--start-min 10 --start-max 20 \
--skip-baseline \
--port 8099 \
--server-args --device Vulkan1,Vulkan2
Appliquez un circuit connu :
# Dupliquer les couches 12-14 dans Devstral
python layer_path.py model.gguf improved.gguf \
-p " 0..14,12,13,14,15..39 " -v
Dupliquer les couches 7-9 dans Qwen2.5-32B
python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v
Exemple de triple passage
python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v
Validez avec des benchmarks établis :
# Démarrer le serveur avec le modèle modifié
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Exécuter lm-evaluation-harness
L'ensemble du processus de découverte - balayage, découverte, validation - a été réalisé sur deux GPU AMD grand public (RX 7900 XT + RX 6950 XT) en une soirée.
📖 Lire la source complète : HN LLM Tools
👀 See Also

Amélioration des sessions de code Claude avec claude-self-improve
Claude-self-improve est un outil en ligne de commande qui améliore les performances de l'IA Claude Code en analysant les données de session et en mettant à jour automatiquement les fichiers de mémoire.

Claude Cowork contre OpenClaw : Où le récit du remplacement tient et où il se brise
Claude Cowork propose des sessions de bureau persistantes avec une faible friction, tandis qu'OpenClaw conserve ses avantages en matière d'automatisation au niveau système, d'écosystèmes de compétences et de contrôle des flux de travail.

Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.
Distil Labs a publié un pipeline de bout en bout qui affine un modèle Qwen3-0.6B pour atteindre 79,5 % de correspondance exacte sur l'appel de fonctions pour la domotique IoT, surpassant un modèle enseignant de 120B de 29 points. Le pipeline utilise des traces de production pour générer des données d'entraînement synthétiques sans annotation manuelle.

Le Benchmark OpenClaw Montre que Qwen3.5:27B Surpasse les Autres LLMs Locaux pour les Tâches d'Agent
Un benchmark de 7 LLM locaux sur 22 tâches d'agent réelles utilisant OpenClaw a révélé que qwen3.5:27b-q4_K_M a obtenu 59,4 %, tandis que le deuxième, qwen3.5:35b, n'a obtenu que 23,2 %. La plupart des modèles n'ont pas pu trouver des outils de base comme les fonctions de messagerie.