Duplica Capas en LLM: Razonamiento sin Entrenamiento

El conjunto de herramientas llm-circuit-finder implementa y extiende el método RYS de David Ng para descubrir y explotar 'circuitos de razonamiento' ocultos dentro de modelos transformadores. El hallazgo principal: ciertos bloques contiguos de capas actúan como unidades cognitivas indivisibles. Duplicarlos en el pase hacia adelante - mismos pesos, sin entrenamiento, sin fusión - hace que los modelos sean mediblemente más inteligentes en capacidades específicas.

Resultados Clave

Devstral-Small-2-24B con las capas 12, 13, 14 duplicadas una vez:

Deducción Lógica BBH: 0.22 → 0.76 (+245%)
GSM8K (estricto): 0.48 → 0.64 (+33%)
MBPP (generación de código): 0.72 → 0.78 (+8%)
Mejora promedio: +8% en todas las métricas sin degradación alguna

Qwen2.5-Coder-32B con las capas 7, 8, 9 duplicadas una vez:

Sonda de razonamiento (causal + lógica + navegación): 76.5% → 94.1% (+23%)

Cómo Funciona

Los transformadores se organizan durante el entrenamiento en circuitos funcionales - unidades de procesamiento multicapa que realizan operaciones cognitivas completas. Estos circuitos son indivisibles: duplicar una sola capa casi no hace nada, pero duplicar el bloque correcto de 3-4 capas le da al modelo un segundo pase a través de su pipeline de razonamiento.

Diferentes modelos tienen diferentes circuitos en diferentes lugares:

Devstral-24B (40 capas): circuito de razonamiento en las capas 12-14
Qwen2.5-32B (64 capas): circuito de razonamiento en las capas 7-9

Los límites son precisos. Desplazar el bloque por una capa en cualquier dirección hace que la mejora desaparezca o se invierta.

Diferentes Patrones de Duplicación Crean Diferentes Modos

Mismos pesos en disco, misma VRAM para el modelo base, solo diferente enrutamiento:

Doble pase 13-16: Matemáticas ↑↑, EQ ↑
Triple pase 13-16: Matemáticas ↑, EQ ↑↑
Intercalado 13,13,14,14,15,15,16: Matemáticas ↑↑↑, EQ ↓ (modo matemático puro)
Cuádruple pase 13-16: Matemáticas —, EQ ↑↑ (modo EQ, matemáticas neutral)

Inicio Rápido

Encuentra circuitos en tu modelo:

pip install gguf requests tqdm
python sweep.py \
  --model /ruta/al/modelo.gguf \
  --llama-server /ruta/a/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Aplica un circuito conocido:

# Duplica las capas 12-14 en Devstral python layer_path.py model.gguf improved.gguf \ -p " 0..14,12,13,14,15..39 " -v Duplica las capas 7-9 en Qwen2.5-32B python layer_path.py model.gguf improved.gguf -p " 0..9,7,8,9,10..63 " -v Ejemplo de triple pase

python layer_path.py model.gguf experiment.gguf -p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Valida con benchmarks establecidos:

# Inicia el servidor con el modelo modificado
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Ejecuta lm-evaluation-harness

Todo el proceso de descubrimiento - barrido, descubrimiento, validación - se realizó en dos GPUs de consumo AMD (RX 7900 XT + RX 6950 XT) en una tarde.

📖 Read the full source: HN LLM Tools

Buscador de Circuitos LLM: Duplica 3 capas para potenciar el razonamiento sin entrenamiento

Resultados Clave

Cómo Funciona

Diferentes Patrones de Duplicación Crean Diferentes Modos

Inicio Rápido

Duplica las capas 7-9 en Qwen2.5-32B

Ejemplo de triple pase

👀 Ver también

Universal CLAUDE.md reduce los tokens de salida de Claude en un 63% en pruebas comparativas.

Servidor MCP de Rust de Código Abierto Otorga a Claude Capacidades Completas de Gestión de Correo Electrónico

OpenClaw como Interfaz de Infraestructura como Código para la Gestión de Laboratorios Domésticos

Mundo: Simulación de Vida Artificial de Final Abierto con Redes Neuronales Evolutivas