LLM Circuit Finder: Verdreifachen Sie Schichten, um das Denkvermögen ohne Training zu steigern

Das llm-circuit-finder-Toolkit implementiert und erweitert David Ngs RYS-Methode, um 'Reasoning Circuits' zu entdecken und zu nutzen, die in Transformer-Modellen verborgen sind. Die Kernentdeckung: Bestimmte zusammenhängende Schichtblöcke fungieren als unteilbare kognitive Einheiten. Ihr Duplizieren im Forward-Pass – gleiche Gewichte, kein Training, kein Zusammenführen – macht Modelle bei bestimmten Fähigkeiten messbar intelligenter.
Wichtige Ergebnisse
Devstral-Small-2-24B mit einmal duplizierten Schichten 12, 13, 14:
- BBH Logische Deduktion: 0,22 → 0,76 (+245%)
- GSM8K (streng): 0,48 → 0,64 (+33%)
- MBPP (Code-Generierung): 0,72 → 0,78 (+8%)
- Durchschnittliche Verbesserung: +8% über alle Metriken, ohne Verschlechterungen
Qwen2.5-Coder-32B mit einmal duplizierten Schichten 7, 8, 9:
- Reasoning-Probe (kausal + Logik + Navigation): 76,5% → 94,1% (+23%)
So funktioniert es
Transformer organisieren sich während des Trainings in funktionale Schaltkreise – mehrschichtige Verarbeitungseinheiten, die vollständige kognitive Operationen durchführen. Diese Schaltkreise sind unteilbar: Das Duplizieren einer einzelnen Schicht bewirkt fast nichts, aber das Duplizieren des richtigen Blocks von 3-4 Schichten gibt dem Modell einen zweiten Durchlauf durch seine Reasoning-Pipeline.
Verschiedene Modelle haben unterschiedliche Schaltkreise an verschiedenen Stellen:
- Devstral-24B (40 Schichten): Reasoning-Schaltkreis bei Schichten 12-14
- Qwen2.5-32B (64 Schichten): Reasoning-Schaltkreis bei Schichten 7-9
Die Grenzen sind scharf. Verschiebt man den Block um eine Schicht in eine Richtung, verschwindet die Verbesserung oder kehrt sich um.
Verschiedene Duplizierungsmuster erzeugen verschiedene Modi
Gleiche Gewichte auf der Festplatte, gleicher VRAM für das Basismodell, nur unterschiedliches Routing:
- Doppelpass 13-16: Mathe ↑↑, EQ ↑
- Dreifachpass 13-16: Mathe ↑, EQ ↑↑
- Verschachtelt 13,13,14,14,15,15,16: Mathe ↑↑↑, EQ ↓ (reiner Mathe-Modus)
- Vierfachpass 13-16: Mathe —, EQ ↑↑ (EQ-Modus, Mathe neutral)
Schnellstart
Schaltkreise in Ihrem Modell finden:
pip install gguf requests tqdm
python sweep.py \
--model /pfad/zum/model.gguf \
--llama-server /pfad/zum/llama-server \
--tmpdir /dev/shm/rys \
--results pass.jsonl \
--block-sizes 3 4 5 \
--stride 1 \
--start-min 10 --start-max 20 \
--skip-baseline \
--port 8099 \
--server-args --device Vulkan1,Vulkan2
Einen bekannten Schaltkreis anwenden:
# Schichten 12-14 in Devstral duplizieren
python layer_path.py model.gguf improved.gguf \
-p " 0..14,12,13,14,15..39 " -v
Schichten 7-9 in Qwen2.5-32B duplizieren
python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v
Dreifachpass-Beispiel
python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v
Mit etablierten Benchmarks validieren:
# Server mit modifiziertem Modell starten
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# lm-evaluation-harness ausführen
Der gesamte Entdeckungsprozess – Sweep, Entdeckung, Validierung – wurde an einem Abend auf zwei AMD-Consumer-GPUs (RX 7900 XT + RX 6950 XT) durchgeführt.
📖 Den vollständigen Source lesen: HN LLM Tools
👀 Siehe auch

MCP-Server fügt Claude Code persistenten Speicher mit Abruf-Bewertung hinzu
Ein Entwickler hat einen MCP-Server namens engram-mcp erstellt, der Claude Code persistenten Speicher über Sitzungen und Projekte hinweg ermöglicht, mit automatischer Abrufbewertung basierend auf Erfolgsergebnissen und Erkennung von Wissensverfall.

GlycemicGPT: Selbstgehosteter KI-Diabetesmonitor mit BYOAI und Plugin-SDK
GlycemicGPT ist eine quelloffene, selbst gehostete Plattform, die Dexcom G7- und Tandem-Pumpen mit einer KI-Analyseebene verbindet. Sie bietet tägliche Zusammenfassungen, Mahlzeitenanalyse, Konversations-Chat und konfigurierbare Benachrichtigungen – alles auf Ihrer eigenen Hardware.

Holaboss strebt an, die Bereitstellung tragbarer lokaler Agenten zu lösen.
Holaboss ist ein Open-Source-Projekt, das den KI-Arbeiter als portables Artefakt behandelt – mit einem Arbeitsbereich pro Arbeiter, lokalen Fähigkeiten/Apps, persistentem Speicher und einer Laufzeitumgebung, die separat von der Desktop-App verpackt werden kann. Es unterstützt lokale Modellstapel wie Ollama und erfordert Node.js 22+ auf den Zielmaschinen.

Flue: Ein TypeScript-Framework zur Erstellung autonomer Codierungsagenten
Flue ist ein TypeScript-Framework, das eine programmierbare Harnes-Architektur für den Bau autonomer Agenten bietet, mit Funktionen wie Skills, Sessions, Sandbox-Shell-Ausführung und einer integrierten virtuellen Sandbox. Es kann Tools wie Dosu, Greptile, CodeRabbit, Devin und Claude Code durch benutzerdefinierte Agentenlogik ersetzen.