Buscador de Circuitos LLM: Duplica 3 capas para potenciar el razonamiento sin entrenamiento

El conjunto de herramientas llm-circuit-finder implementa y extiende el método RYS de David Ng para descubrir y explotar 'circuitos de razonamiento' ocultos dentro de modelos transformadores. El hallazgo principal: ciertos bloques contiguos de capas actúan como unidades cognitivas indivisibles. Duplicarlos en el pase hacia adelante - mismos pesos, sin entrenamiento, sin fusión - hace que los modelos sean mediblemente más inteligentes en capacidades específicas.
Resultados Clave
Devstral-Small-2-24B con las capas 12, 13, 14 duplicadas una vez:
- Deducción Lógica BBH: 0.22 → 0.76 (+245%)
- GSM8K (estricto): 0.48 → 0.64 (+33%)
- MBPP (generación de código): 0.72 → 0.78 (+8%)
- Mejora promedio: +8% en todas las métricas sin degradación alguna
Qwen2.5-Coder-32B con las capas 7, 8, 9 duplicadas una vez:
- Sonda de razonamiento (causal + lógica + navegación): 76.5% → 94.1% (+23%)
Cómo Funciona
Los transformadores se organizan durante el entrenamiento en circuitos funcionales - unidades de procesamiento multicapa que realizan operaciones cognitivas completas. Estos circuitos son indivisibles: duplicar una sola capa casi no hace nada, pero duplicar el bloque correcto de 3-4 capas le da al modelo un segundo pase a través de su pipeline de razonamiento.
Diferentes modelos tienen diferentes circuitos en diferentes lugares:
- Devstral-24B (40 capas): circuito de razonamiento en las capas 12-14
- Qwen2.5-32B (64 capas): circuito de razonamiento en las capas 7-9
Los límites son precisos. Desplazar el bloque por una capa en cualquier dirección hace que la mejora desaparezca o se invierta.
Diferentes Patrones de Duplicación Crean Diferentes Modos
Mismos pesos en disco, misma VRAM para el modelo base, solo diferente enrutamiento:
- Doble pase 13-16: Matemáticas ↑↑, EQ ↑
- Triple pase 13-16: Matemáticas ↑, EQ ↑↑
- Intercalado 13,13,14,14,15,15,16: Matemáticas ↑↑↑, EQ ↓ (modo matemático puro)
- Cuádruple pase 13-16: Matemáticas —, EQ ↑↑ (modo EQ, matemáticas neutral)
Inicio Rápido
Encuentra circuitos en tu modelo:
pip install gguf requests tqdm
python sweep.py \
--model /ruta/al/modelo.gguf \
--llama-server /ruta/a/llama-server \
--tmpdir /dev/shm/rys \
--results pass.jsonl \
--block-sizes 3 4 5 \
--stride 1 \
--start-min 10 --start-max 20 \
--skip-baseline \
--port 8099 \
--server-args --device Vulkan1,Vulkan2
Aplica un circuito conocido:
# Duplica las capas 12-14 en Devstral
python layer_path.py model.gguf improved.gguf \
-p " 0..14,12,13,14,15..39 " -v
Duplica las capas 7-9 en Qwen2.5-32B
python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v
Ejemplo de triple pase
python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v
Valida con benchmarks establecidos:
# Inicia el servidor con el modelo modificado
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Ejecuta lm-evaluation-harness
Todo el proceso de descubrimiento - barrido, descubrimiento, validación - se realizó en dos GPUs de consumo AMD (RX 7900 XT + RX 6950 XT) en una tarde.
📖 Read the full source: HN LLM Tools
👀 Ver también

Historial de ELO del modelo Arena AI rastrea la degradación del rendimiento de LLM a lo largo del tiempo
Un panel en vivo visualiza las puntuaciones ELO de los modelos insignia de los principales laboratorios de IA, revelando una degradación gradual del rendimiento y saltos repentinos en los nuevos lanzamientos. La herramienta traza dinámicamente una curva por laboratorio, rastreando el modelo mejor valorado.

Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes
El modelo gemma-4-26B-A4B alcanza aproximadamente 145 tokens por segundo en una RTX 4090 e incluye soporte MCP para búsqueda web y de imágenes en aplicaciones de chat. Una publicación de blog detalla la configuración y el uso multiplataforma en Mac e iPhone.

Black LLAB: Arquitectura de Código Abierto para Enrutamiento Dinámico de Modelos y Agentes de IA en Sandbox de Docker
Un desarrollador ha hecho de código abierto Black LLAB, un sistema que utiliza Mistral 3B para dirigir solicitudes entre modelos locales y en la nube, y ejecuta agentes de IA en contenedores Docker aislados con integración de OpenClaw.

Orc: Herramienta de Orquestación de Codificación Multi-Agente Añade Funciones de Planificación y Notificación
Orc es una herramienta de código abierto que orquesta agentes de codificación de IA en múltiples proyectos con una interfaz de usuario de terminal local (TUI). La última versión añade la planificación como una fase fundamental, sistemas de notificación para intervención humana y ganchos de ciclo de vida en lenguaje natural.