Duplique 3 camadas e aumente o raciocínio sem treinamento

O kit de ferramentas llm-circuit-finder implementa e estende o método RYS de David Ng para descobrir e explorar 'circuitos de raciocínio' ocultos dentro de modelos de transformadores. A descoberta principal: certos blocos contíguos de camadas atuam como unidades cognitivas indivisíveis. Duplicá-los na passagem direta - mesmos pesos, sem treinamento, sem fusão - torna os modelos mensuravelmente mais inteligentes em capacidades específicas.

Resultados Principais

Devstral-Small-2-24B com camadas 12, 13, 14 duplicadas uma vez:

BBH Dedução Lógica: 0,22 → 0,76 (+245%)
GSM8K (rigoroso): 0,48 → 0,64 (+33%)
MBPP (geração de código): 0,72 → 0,78 (+8%)
Melhoria média: +8% em todas as métricas sem degradação

Qwen2.5-Coder-32B com camadas 7, 8, 9 duplicadas uma vez:

Sonda de raciocínio (causal + lógica + navegação): 76,5% → 94,1% (+23%)

Como Funciona

Transformadores se organizam durante o treinamento em circuitos funcionais - unidades de processamento multicamadas que realizam operações cognitivas completas. Esses circuitos são indivisíveis: duplicar uma única camada faz quase nada, mas duplicar o bloco certo de 3-4 camadas dá ao modelo uma segunda passagem por seu pipeline de raciocínio.

Diferentes modelos têm circuitos diferentes em lugares diferentes:

Devstral-24B (40 camadas): circuito de raciocínio nas camadas 12-14
Qwen2.5-32B (64 camadas): circuito de raciocínio nas camadas 7-9

Os limites são nítidos. Deslocar o bloco por uma camada em qualquer direção faz a melhoria desaparecer ou inverter.

Diferentes Padrões de Duplicação Criam Diferentes Modos

Mesmos pesos no disco, mesma VRAM para o modelo base, apenas roteamento diferente:

Dupla passagem 13-16: Matemática ↑↑, EQ ↑
Tripla passagem 13-16: Matemática ↑, EQ ↑↑
Intercalado 13,13,14,14,15,15,16: Matemática ↑↑↑, EQ ↓ (modo matemática pura)
Quádrupla passagem 13-16: Matemática —, EQ ↑↑ (modo EQ, matemática neutra)

Início Rápido

Encontre circuitos no seu modelo:

pip install gguf requests tqdm
python sweep.py \
  --model /caminho/para/modelo.gguf \
  --llama-server /caminho/para/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Aplique um circuito conhecido:

# Duplicar camadas 12-14 no Devstral python layer_path.py modelo.gguf melhorado.gguf \ -p " 0..14,12,13,14,15..39 " -v Duplicar camadas 7-9 no Qwen2.5-32B python layer_path.py modelo.gguf melhorado.gguf -p " 0..9,7,8,9,10..63 " -v Exemplo de tripla passagem

python layer_path.py modelo.gguf experimento.gguf -p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Valide com benchmarks estabelecidos:

# Inicie o servidor com modelo modificado
llama-server -m melhorado.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Execute lm-evaluation-harness

Todo o processo de descoberta - varredura, descoberta, validação - foi feito em duas GPUs de consumo AMD (RX 7900 XT + RX 6950 XT) em uma noite.

📖 Leia a fonte completa: HN LLM Tools

Localizador de Circuitos LLM: Duplique 3 camadas para aumentar o raciocínio sem treinamento

Resultados Principais

Como Funciona

Diferentes Padrões de Duplicação Criam Diferentes Modos

Início Rápido

Duplicar camadas 7-9 no Qwen2.5-32B

Exemplo de tripla passagem

👀 See Also

Hearth: Aplicativo de Chat AI Multiusuário Autohospedado para Residências no OpenClaw

Pilot Shell: Uma Camada de Fluxo de Trabalho Estruturada para Claude Code

AlterSpec v1.0: Aplicação de Políticas em Tempo de Execução para Agentes de IA

Sistema de desenvolvimento de produtos com 31 agentes de código aberto para Claude, com mais de 12.000 linhas de conteúdo