LLM Circuit Finder: Verdreifachen Sie Schichten, um das Denkvermögen ohne Training zu steigern

✍️ OpenClawRadar📅 Veröffentlicht: 19. März 2026🔗 Source
LLM Circuit Finder: Verdreifachen Sie Schichten, um das Denkvermögen ohne Training zu steigern
Ad

Das llm-circuit-finder-Toolkit implementiert und erweitert David Ngs RYS-Methode, um 'Reasoning Circuits' zu entdecken und zu nutzen, die in Transformer-Modellen verborgen sind. Die Kernentdeckung: Bestimmte zusammenhängende Schichtblöcke fungieren als unteilbare kognitive Einheiten. Ihr Duplizieren im Forward-Pass – gleiche Gewichte, kein Training, kein Zusammenführen – macht Modelle bei bestimmten Fähigkeiten messbar intelligenter.

Wichtige Ergebnisse

Devstral-Small-2-24B mit einmal duplizierten Schichten 12, 13, 14:

  • BBH Logische Deduktion: 0,22 → 0,76 (+245%)
  • GSM8K (streng): 0,48 → 0,64 (+33%)
  • MBPP (Code-Generierung): 0,72 → 0,78 (+8%)
  • Durchschnittliche Verbesserung: +8% über alle Metriken, ohne Verschlechterungen

Qwen2.5-Coder-32B mit einmal duplizierten Schichten 7, 8, 9:

  • Reasoning-Probe (kausal + Logik + Navigation): 76,5% → 94,1% (+23%)

So funktioniert es

Transformer organisieren sich während des Trainings in funktionale Schaltkreise – mehrschichtige Verarbeitungseinheiten, die vollständige kognitive Operationen durchführen. Diese Schaltkreise sind unteilbar: Das Duplizieren einer einzelnen Schicht bewirkt fast nichts, aber das Duplizieren des richtigen Blocks von 3-4 Schichten gibt dem Modell einen zweiten Durchlauf durch seine Reasoning-Pipeline.

Verschiedene Modelle haben unterschiedliche Schaltkreise an verschiedenen Stellen:

  • Devstral-24B (40 Schichten): Reasoning-Schaltkreis bei Schichten 12-14
  • Qwen2.5-32B (64 Schichten): Reasoning-Schaltkreis bei Schichten 7-9

Die Grenzen sind scharf. Verschiebt man den Block um eine Schicht in eine Richtung, verschwindet die Verbesserung oder kehrt sich um.

Ad

Verschiedene Duplizierungsmuster erzeugen verschiedene Modi

Gleiche Gewichte auf der Festplatte, gleicher VRAM für das Basismodell, nur unterschiedliches Routing:

  • Doppelpass 13-16: Mathe ↑↑, EQ ↑
  • Dreifachpass 13-16: Mathe ↑, EQ ↑↑
  • Verschachtelt 13,13,14,14,15,15,16: Mathe ↑↑↑, EQ ↓ (reiner Mathe-Modus)
  • Vierfachpass 13-16: Mathe —, EQ ↑↑ (EQ-Modus, Mathe neutral)

Schnellstart

Schaltkreise in Ihrem Modell finden:

pip install gguf requests tqdm
python sweep.py \
  --model /pfad/zum/model.gguf \
  --llama-server /pfad/zum/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Einen bekannten Schaltkreis anwenden:

# Schichten 12-14 in Devstral duplizieren
python layer_path.py model.gguf improved.gguf \
  -p " 0..14,12,13,14,15..39 " -v

Schichten 7-9 in Qwen2.5-32B duplizieren

python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v

Dreifachpass-Beispiel

python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Mit etablierten Benchmarks validieren:

# Server mit modifiziertem Modell starten
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# lm-evaluation-harness ausführen

Der gesamte Entdeckungsprozess – Sweep, Entdeckung, Validierung – wurde an einem Abend auf zwei AMD-Consumer-GPUs (RX 7900 XT + RX 6950 XT) durchgeführt.

📖 Den vollständigen Source lesen: HN LLM Tools

Ad

👀 Siehe auch

MCP-Server fügt Claude Code persistenten Speicher mit Abruf-Bewertung hinzu
Werkzeuge

MCP-Server fügt Claude Code persistenten Speicher mit Abruf-Bewertung hinzu

Ein Entwickler hat einen MCP-Server namens engram-mcp erstellt, der Claude Code persistenten Speicher über Sitzungen und Projekte hinweg ermöglicht, mit automatischer Abrufbewertung basierend auf Erfolgsergebnissen und Erkennung von Wissensverfall.

OpenClawRadar
GlycemicGPT: Selbstgehosteter KI-Diabetesmonitor mit BYOAI und Plugin-SDK
Werkzeuge

GlycemicGPT: Selbstgehosteter KI-Diabetesmonitor mit BYOAI und Plugin-SDK

GlycemicGPT ist eine quelloffene, selbst gehostete Plattform, die Dexcom G7- und Tandem-Pumpen mit einer KI-Analyseebene verbindet. Sie bietet tägliche Zusammenfassungen, Mahlzeitenanalyse, Konversations-Chat und konfigurierbare Benachrichtigungen – alles auf Ihrer eigenen Hardware.

OpenClawRadar
Holaboss strebt an, die Bereitstellung tragbarer lokaler Agenten zu lösen.
Werkzeuge

Holaboss strebt an, die Bereitstellung tragbarer lokaler Agenten zu lösen.

Holaboss ist ein Open-Source-Projekt, das den KI-Arbeiter als portables Artefakt behandelt – mit einem Arbeitsbereich pro Arbeiter, lokalen Fähigkeiten/Apps, persistentem Speicher und einer Laufzeitumgebung, die separat von der Desktop-App verpackt werden kann. Es unterstützt lokale Modellstapel wie Ollama und erfordert Node.js 22+ auf den Zielmaschinen.

OpenClawRadar
Flue: Ein TypeScript-Framework zur Erstellung autonomer Codierungsagenten
Werkzeuge

Flue: Ein TypeScript-Framework zur Erstellung autonomer Codierungsagenten

Flue ist ein TypeScript-Framework, das eine programmierbare Harnes-Architektur für den Bau autonomer Agenten bietet, mit Funktionen wie Skills, Sessions, Sandbox-Shell-Ausführung und einer integrierten virtuellen Sandbox. Es kann Tools wie Dosu, Greptile, CodeRabbit, Devin und Claude Code durch benutzerdefinierte Agentenlogik ersetzen.

OpenClawRadar