LLM 숨겨진 에이전시 신호(Â)를 활용한 향상된 도구 호출

✍️ OpenClawRadar📅 게시일: March 8, 2026🔗 Source
LLM 숨겨진 에이전시 신호(Â)를 활용한 향상된 도구 호출
Ad

Qwen3로 ReAct 에이전트 실패를 디버깅하는 동안, 한 개발자가 도구 호출 직전의 숨겨진 상태가 AUC > 0.94로 비도구 상태와 선형 분리 가능함을 발견했습니다. 이 잠재 공간의 방향은 "에이전시(agency)"를 의미하는 Â로 불리며, 1.7B에서 8B까지 다양한 모델 크기에 걸쳐 존재하며 선형 프로브만 사용하여 도구 호출을 예측합니다.

에이전시 신호 사용 방법

추론 중에 각 숨겨진 상태를 Â에 투영합니다. 투영값이 임계값 θ를 초과하면, 모델이 텍스트로 표현하지 않더라도 도구를 호출하려는 의도를 가집니다. 그런 다음 도구 호출을 강제할 수 있습니다.

# 추론 시 (의사 코드)
hidden_state = get_middle_layer_state(model, input_text)
proj = np.dot(hidden_state, Â)
if proj > threshold:
    # 모델이 행동하려 함 → 도구 호출 강제
    tool = choose_tool() # 학습 또는 휴리스틱으로 선택 가능
    result = execute_tool(tool)
else:
    # 일반 생성
    output = model.generate(input_text)

성능 결과

Qwen3 모델로 40가지 다양한 작업(검색, 코드, 파일, 통신, 데이터)에서 테스트:

  • Qwen3-1.7B: 26.7% → 85% (+58% 향상)
  • Qwen3-8B: 52.5% → 76.3% (+23% 향상)

"도구 미사용" 실패 모드가 43%에서 2.6%로 감소했습니다. 작은 모델이 텍스트 디코딩 능력이 약하기 때문에 더 큰 혜택을 보지만, 기하학적 신호는 동등하게 강력합니다.

Ad

 추출 방법

세 가지 방법:

  • 옵션 1: 자체 추적 데이터에서 - 도구 사용과 비사용 숨겨진 상태 간의 정규화된 평균 차이 계산
  • 옵션 2: 대조 프롬프트를 통해 - 모델을 통해 15쌍의 프롬프트(도구 필요 프롬프트와 수동적 프롬프트)를 실행하고 중간 레이어에서 평균 차이 취함
  • 옵션 3: 사전 계산된 방향 사용 - 저장소에서 공유된 Qwen3 모델용 추출된 Â 방향 사용

패키지 구현

이 발견은 쉽게 재사용할 수 있도록 라이브러리로 패키징되었습니다:

bash
pip install a-hat-optimizer
python
from a_hat_optimizer import AHat

# 1줄로 모든 HF 모델에서 자동 추출
ahat = AHat.from_model("Qwen/Qwen3-8B")

# 또는 사전 추출된 것 로드
ahat = AHat.from_file("my_ahat_dir/")

# 에이전트에서 사용
should_call, confidence = ahat.predict(hidden_state)
if should_call:
    print(f"도구 호출 강제 (신뢰도: {confidence:.2f})")

라이브러리는 대조 프롬프트를 통한 자동 추출, 4가지 보정 전략(중간점, F1, 유덴, 백분위수), 배치 예측, AUC 및 레이어 정보를 포함한 메타데이터와 함께 저장/로드를 처리합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

TRELLIS.2 이미지-3D 변환 기술, Apple Silicon에서 네이티브 실행으로 이식
Tools

TRELLIS.2 이미지-3D 변환 기술, Apple Silicon에서 네이티브 실행으로 이식

한 개발자가 Microsoft의 40억 개 파라미터 TRELLIS.2 이미지-3D 모델을 PyTorch MPS를 통해 Apple Silicon에서 네이티브로 실행되도록 포팅했습니다. CUDA 전용 연산을 순수 PyTorch 대안으로 대체하여, M4 Pro(24GB 메모리)에서 단일 사진으로 약 40만 개 정점 메시를 약 3.5분 만에 생성합니다.

OpenClawRadar
LLM 매트릭스: Claude Code로 구축된 커뮤니티 투표 기반 모델 비교
Tools

LLM 매트릭스: Claude Code로 구축된 커뮤니티 투표 기반 모델 비교

데이터 과학자가 llm-matrix.vercel.app를 구축하여 여러 차원에서 동시에 LLM 점수를 비교하고, 커뮤니티 투표로 순위를 형성합니다. 이 사이트는 Claude Code와 두 가지 특정 플러그인을 사용해 완전히 개발되었습니다.

OpenClawRadar
SourceBridge: 로컬 LLM을 사용한 코드베이스 분석을 위한 오픈소스 도구
Tools

SourceBridge: 로컬 LLM을 사용한 코드베이스 분석을 위한 오픈소스 도구

SourceBridge는 Git 저장소를 심볼 그래프로 색인화하고 로컬 LLM을 사용하여 코드베이스 요약, 아키텍처 둘러보기 및 학습 자료를 생성하는 오픈소스 도구입니다. OpenAI 호환 API를 통해 Ollama, llama.cpp, vLLM, LM Studio, SGLang 등 여러 로컬 백엔드를 지원합니다.

OpenClawRadar
OpenClaw와 Save to Spotify CLI로 일일 브리핑을 개인 Spotify 팟캐스트로 자동화하기
Tools

OpenClaw와 Save to Spotify CLI로 일일 브리핑을 개인 Spotify 팟캐스트로 자동화하기

OpenClaw는 매일 오전 7시에 실행되어 Slack 스레드, GitHub 알림, 캘린더를 가져와 mp3로 요약하고, Save to Spotify CLI를 통해 비공개 에피소드로 업로드합니다. Free 및 Premium에서 작동합니다.

OpenClawRadar