Buscador de Circuitos LLM: Duplica 3 capas para potenciar el razonamiento sin entrenamiento

✍️ OpenClawRadar📅 Publicado: 19 de marzo de 2026🔗 Source
Buscador de Circuitos LLM: Duplica 3 capas para potenciar el razonamiento sin entrenamiento
Ad

El conjunto de herramientas llm-circuit-finder implementa y extiende el método RYS de David Ng para descubrir y explotar 'circuitos de razonamiento' ocultos dentro de modelos transformadores. El hallazgo principal: ciertos bloques contiguos de capas actúan como unidades cognitivas indivisibles. Duplicarlos en el pase hacia adelante - mismos pesos, sin entrenamiento, sin fusión - hace que los modelos sean mediblemente más inteligentes en capacidades específicas.

Resultados Clave

Devstral-Small-2-24B con las capas 12, 13, 14 duplicadas una vez:

  • Deducción Lógica BBH: 0.22 → 0.76 (+245%)
  • GSM8K (estricto): 0.48 → 0.64 (+33%)
  • MBPP (generación de código): 0.72 → 0.78 (+8%)
  • Mejora promedio: +8% en todas las métricas sin degradación alguna

Qwen2.5-Coder-32B con las capas 7, 8, 9 duplicadas una vez:

  • Sonda de razonamiento (causal + lógica + navegación): 76.5% → 94.1% (+23%)

Cómo Funciona

Los transformadores se organizan durante el entrenamiento en circuitos funcionales - unidades de procesamiento multicapa que realizan operaciones cognitivas completas. Estos circuitos son indivisibles: duplicar una sola capa casi no hace nada, pero duplicar el bloque correcto de 3-4 capas le da al modelo un segundo pase a través de su pipeline de razonamiento.

Diferentes modelos tienen diferentes circuitos en diferentes lugares:

  • Devstral-24B (40 capas): circuito de razonamiento en las capas 12-14
  • Qwen2.5-32B (64 capas): circuito de razonamiento en las capas 7-9

Los límites son precisos. Desplazar el bloque por una capa en cualquier dirección hace que la mejora desaparezca o se invierta.

Ad

Diferentes Patrones de Duplicación Crean Diferentes Modos

Mismos pesos en disco, misma VRAM para el modelo base, solo diferente enrutamiento:

  • Doble pase 13-16: Matemáticas ↑↑, EQ ↑
  • Triple pase 13-16: Matemáticas ↑, EQ ↑↑
  • Intercalado 13,13,14,14,15,15,16: Matemáticas ↑↑↑, EQ ↓ (modo matemático puro)
  • Cuádruple pase 13-16: Matemáticas —, EQ ↑↑ (modo EQ, matemáticas neutral)

Inicio Rápido

Encuentra circuitos en tu modelo:

pip install gguf requests tqdm
python sweep.py \
  --model /ruta/al/modelo.gguf \
  --llama-server /ruta/a/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Aplica un circuito conocido:

# Duplica las capas 12-14 en Devstral
python layer_path.py model.gguf improved.gguf \
  -p " 0..14,12,13,14,15..39 " -v

Duplica las capas 7-9 en Qwen2.5-32B

python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v

Ejemplo de triple pase

python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Valida con benchmarks establecidos:

# Inicia el servidor con el modelo modificado
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Ejecuta lm-evaluation-harness

Todo el proceso de descubrimiento - barrido, descubrimiento, validación - se realizó en dos GPUs de consumo AMD (RX 7900 XT + RX 6950 XT) en una tarde.

📖 Read the full source: HN LLM Tools

Ad

👀 Ver también

Historial de ELO del modelo Arena AI rastrea la degradación del rendimiento de LLM a lo largo del tiempo
Herramientas

Historial de ELO del modelo Arena AI rastrea la degradación del rendimiento de LLM a lo largo del tiempo

Un panel en vivo visualiza las puntuaciones ELO de los modelos insignia de los principales laboratorios de IA, revelando una degradación gradual del rendimiento y saltos repentinos en los nuevos lanzamientos. La herramienta traza dinámicamente una curva por laboratorio, rastreando el modelo mejor valorado.

OpenClawRadar
Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes
Herramientas

Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes

El modelo gemma-4-26B-A4B alcanza aproximadamente 145 tokens por segundo en una RTX 4090 e incluye soporte MCP para búsqueda web y de imágenes en aplicaciones de chat. Una publicación de blog detalla la configuración y el uso multiplataforma en Mac e iPhone.

OpenClawRadar
Black LLAB: Arquitectura de Código Abierto para Enrutamiento Dinámico de Modelos y Agentes de IA en Sandbox de Docker
Herramientas

Black LLAB: Arquitectura de Código Abierto para Enrutamiento Dinámico de Modelos y Agentes de IA en Sandbox de Docker

Un desarrollador ha hecho de código abierto Black LLAB, un sistema que utiliza Mistral 3B para dirigir solicitudes entre modelos locales y en la nube, y ejecuta agentes de IA en contenedores Docker aislados con integración de OpenClaw.

OpenClawRadar
Orc: Herramienta de Orquestación de Codificación Multi-Agente Añade Funciones de Planificación y Notificación
Herramientas

Orc: Herramienta de Orquestación de Codificación Multi-Agente Añade Funciones de Planificación y Notificación

Orc es una herramienta de código abierto que orquesta agentes de codificación de IA en múltiples proyectos con una interfaz de usuario de terminal local (TUI). La última versión añade la planificación como una fase fundamental, sistemas de notificación para intervención humana y ganchos de ciclo de vida en lenguaje natural.

OpenClawRadar