LLM 회로 탐색기: 학습 없이 추론 능력 향상을 위해 3개의 레이어를 복제합니다

llm-circuit-finder 툴킷은 David Ng의 RYS 방법을 구현하고 확장하여 트랜스포머 모델 내부에 숨겨진 '추론 회로'를 발견하고 활용합니다. 핵심 발견: 특정 연속적인 레이어 블록이 분리할 수 없는 인지 단위로 작동합니다. 순전파 과정에서 이들을 복제하면(동일한 가중치, 학습 없음, 병합 없음) 모델의 특정 능력이 측정 가능하게 향상됩니다.
주요 결과
Devstral-Small-2-24B, 레이어 12, 13, 14를 한 번 복제:
- BBH 논리적 추론: 0.22 → 0.76 (+245%)
- GSM8K (엄격): 0.48 → 0.64 (+33%)
- MBPP (코드 생성): 0.72 → 0.78 (+8%)
- 평균 향상: 모든 지표에서 +8%, 저하 없음
Qwen2.5-Coder-32B, 레이어 7, 8, 9를 한 번 복제:
- 추론 프로브 (인과 + 논리 + 탐색): 76.5% → 94.1% (+23%)
작동 원리
트랜스포머는 학습 과정에서 기능적 회로(다중 레이어 처리 단위)로 스스로 조직화되며, 이는 완전한 인지 작업을 수행합니다. 이러한 회로는 분리할 수 없습니다: 단일 레이어를 복제하는 것은 거의 효과가 없지만, 올바른 3-4개 레이어 블록을 복제하면 모델이 추론 파이프라인을 두 번째로 통과하게 됩니다.
다른 모델은 다른 위치에 다른 회로를 가지고 있습니다:
- Devstral-24B (40 레이어): 레이어 12-14에 추론 회로
- Qwen2.5-32B (64 레이어): 레이어 7-9에 추론 회로
경계는 분명합니다. 블록을 한 레이어씩 어느 방향으로든 이동하면 향상 효과가 사라지거나 반전됩니다.
다른 복제 패턴이 다른 모드를 생성합니다
디스크 상 동일한 가중치, 기본 모델 동일한 VRAM, 라우팅만 다름:
- 이중 통과 13-16: 수학 ↑↑, EQ ↑
- 삼중 통과 13-16: 수학 ↑, EQ ↑↑
- 교차 13,13,14,14,15,15,16: 수학 ↑↑↑, EQ ↓ (순수 수학 모드)
- 사중 통과 13-16: 수학 —, EQ ↑↑ (EQ 모드, 수학 중립)
빠른 시작
모델에서 회로 찾기:
pip install gguf requests tqdm
python sweep.py \
--model /path/to/model.gguf \
--llama-server /path/to/llama-server \
--tmpdir /dev/shm/rys \
--results pass.jsonl \
--block-sizes 3 4 5 \
--stride 1 \
--start-min 10 --start-max 20 \
--skip-baseline \
--port 8099 \
--server-args --device Vulkan1,Vulkan2
알려진 회로 적용:
# Devstral에서 레이어 12-14 복제
python layer_path.py model.gguf improved.gguf \
-p " 0..14,12,13,14,15..39 " -v
Qwen2.5-32B에서 레이어 7-9 복제
python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v
삼중 통과 예시
python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v
확립된 벤치마크로 검증:
# 수정된 모델로 서버 시작
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# lm-evaluation-harness 실행
전체 발견 과정(스윕, 발견, 검증)은 두 개의 AMD 소비자 GPU(RX 7900 XT + RX 6950 XT)로 한 저녁 만에 완료되었습니다.
📖 전체 원문 읽기: HN LLM Tools
👀 See Also

Phalanx CLI는 자동화된 코드 리뷰 사이클을 위해 여러 AI 에이전트를 조정합니다.
개발자가 Phalanx라는 CLI 도구를 구축했습니다. 이 도구는 다양한 제공업체의 AI 에이전트를 조정합니다: Codex는 코딩을 처리하고, Claude Opus는 코드 리뷰를 수행하며, Claude Sonnet은 루프를 조정합니다. Codebones라는 동반 도구는 저장소를 구조적 맵으로 압축하여 토큰 사용량을 줄입니다.

애플 뉴럴 엔진을 역공학하여 MicroGPT 모델 학습하기
한 개발자가 Apple의 Neural Engine 비공개 API를 리버스 엔지니어링하여 110M 파라미터 MicroGPT 모델을 위한 학습 파이프라인을 만들었으며, M4 Mac 하드웨어에서 6.6 TFLOPs/watt의 전력 효율을 달성했습니다.

AgenticStore MCP: Claude Desktop용 Python 도구 모음, 27개의 로컬 도구 포함
AgenticStore MCP는 오픈소스 Python 툴킷으로, 여러 MCP 서버를 단일 설치로 대체하여 Claude Desktop에 영구 메모리, 웹 검색, 리포지토리 감사 등 27개의 로컬 도구를 제공하며 Docker나 Node.js 설정이 필요하지 않습니다.

개발자가 클로드 왓츠앱 연동 MCP 서버 구축, 어려움 공유
한 개발자가 Claude가 실제 WhatsApp 대화에 접근할 수 있도록 MCP 서버를 구축했는데, 대화 컨텍스트 관리가 예상보다 까다로워 대화를 추적하기 위한 데이터베이스가 필요하다는 사실을 발견했습니다.