Localizador de Circuitos LLM: Duplique 3 camadas para aumentar o raciocínio sem treinamento

✍️ OpenClawRadar📅 Publicado: March 19, 2026🔗 Source
Localizador de Circuitos LLM: Duplique 3 camadas para aumentar o raciocínio sem treinamento
Ad

O kit de ferramentas llm-circuit-finder implementa e estende o método RYS de David Ng para descobrir e explorar 'circuitos de raciocínio' ocultos dentro de modelos de transformadores. A descoberta principal: certos blocos contíguos de camadas atuam como unidades cognitivas indivisíveis. Duplicá-los na passagem direta - mesmos pesos, sem treinamento, sem fusão - torna os modelos mensuravelmente mais inteligentes em capacidades específicas.

Resultados Principais

Devstral-Small-2-24B com camadas 12, 13, 14 duplicadas uma vez:

  • BBH Dedução Lógica: 0,22 → 0,76 (+245%)
  • GSM8K (rigoroso): 0,48 → 0,64 (+33%)
  • MBPP (geração de código): 0,72 → 0,78 (+8%)
  • Melhoria média: +8% em todas as métricas sem degradação

Qwen2.5-Coder-32B com camadas 7, 8, 9 duplicadas uma vez:

  • Sonda de raciocínio (causal + lógica + navegação): 76,5% → 94,1% (+23%)

Como Funciona

Transformadores se organizam durante o treinamento em circuitos funcionais - unidades de processamento multicamadas que realizam operações cognitivas completas. Esses circuitos são indivisíveis: duplicar uma única camada faz quase nada, mas duplicar o bloco certo de 3-4 camadas dá ao modelo uma segunda passagem por seu pipeline de raciocínio.

Diferentes modelos têm circuitos diferentes em lugares diferentes:

  • Devstral-24B (40 camadas): circuito de raciocínio nas camadas 12-14
  • Qwen2.5-32B (64 camadas): circuito de raciocínio nas camadas 7-9

Os limites são nítidos. Deslocar o bloco por uma camada em qualquer direção faz a melhoria desaparecer ou inverter.

Ad

Diferentes Padrões de Duplicação Criam Diferentes Modos

Mesmos pesos no disco, mesma VRAM para o modelo base, apenas roteamento diferente:

  • Dupla passagem 13-16: Matemática ↑↑, EQ ↑
  • Tripla passagem 13-16: Matemática ↑, EQ ↑↑
  • Intercalado 13,13,14,14,15,15,16: Matemática ↑↑↑, EQ ↓ (modo matemática pura)
  • Quádrupla passagem 13-16: Matemática —, EQ ↑↑ (modo EQ, matemática neutra)

Início Rápido

Encontre circuitos no seu modelo:

pip install gguf requests tqdm
python sweep.py \
  --model /caminho/para/modelo.gguf \
  --llama-server /caminho/para/llama-server \
  --tmpdir /dev/shm/rys \
  --results pass.jsonl \
  --block-sizes 3 4 5 \
  --stride 1 \
  --start-min 10 --start-max 20 \
  --skip-baseline \
  --port 8099 \
  --server-args --device Vulkan1,Vulkan2

Aplique um circuito conhecido:

# Duplicar camadas 12-14 no Devstral
python layer_path.py modelo.gguf melhorado.gguf \
  -p " 0..14,12,13,14,15..39 " -v

Duplicar camadas 7-9 no Qwen2.5-32B

python layer_path.py modelo.gguf melhorado.gguf
-p " 0..9,7,8,9,10..63 " -v

Exemplo de tripla passagem

python layer_path.py modelo.gguf experimento.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v

Valide com benchmarks estabelecidos:

# Inicie o servidor com modelo modificado
llama-server -m melhorado.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Execute lm-evaluation-harness

Todo o processo de descoberta - varredura, descoberta, validação - foi feito em duas GPUs de consumo AMD (RX 7900 XT + RX 6950 XT) em uma noite.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

Modelo Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2 Lançado com Configuração LM Studio
Tools

Modelo Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2 Lançado com Configuração LM Studio

Um modelo não censurado combinado, que une a arquitetura Qwen3.5-9B com dados de treinamento do Claude 4.6 Opus, está agora disponível, com configurações específicas do LM Studio 0.4.7 fornecidas para desempenho ideal, incluindo temperatura 0.7 e amostragem top K 20.

OpenClawRadar
Custo Real de Ferramentas de IA para Codificação: 42 Horas de Sobrecarga a Cada 60 Dias — Análise Detalhada de um Dev Solo
Tools

Custo Real de Ferramentas de IA para Codificação: 42 Horas de Sobrecarga a Cada 60 Dias — Análise Detalhada de um Dev Solo

Um desenvolvedor solo monitorou cada dólar e minuto gasto com ferramentas de codificação de IA por 60 dias. Assinaturas (US$ 200/mês) foram o menor custo; 42 horas de sobrecarga devido a saídas ruins e troca de ferramentas foram o verdadeiro imposto. O ganho líquido de produtividade foi de 1,7 a 2x, não 10x. Surpresa: CodeRabbit, uma ferramenta de revisão de US$ 15/mês, teve o maior ROI.

OpenClawRadar
Orc: Ferramenta de Orquestração de Codificação Multiagente Adiciona Recursos de Planejamento e Notificação
Tools

Orc: Ferramenta de Orquestração de Codificação Multiagente Adiciona Recursos de Planejamento e Notificação

Orc é uma ferramenta de código aberto que orquestra agentes de IA de codificação em projetos com uma interface TUI local. A versão mais recente adiciona planejamento como uma fase de primeira classe, sistemas de notificação para intervenção humana e ganchos de ciclo de vida em linguagem natural.

OpenClawRadar
Ferramenta de código aberto para feeds do Reddit curados por IA usando Cloudflare, Supabase e Vercel
Tools

Ferramenta de código aberto para feeds do Reddit curados por IA usando Cloudflare, Supabase e Vercel

Um desenvolvedor disponibilizou como código aberto uma ferramenta auto-hospedada que filtra o Reddit em busca de postagens de qualidade sobre desenvolvimento assistido por IA, usando Cloudflare Workers para tarefas agendadas e proxies, Supabase para armazenamento e Vercel para o frontend. A ferramenta inclui pontuação de engajamento, resumos opcionais de LLM e custa US$ 1-2/mês para processamento de IA.

OpenClawRadar