LLM 숨겨진 신호 Â로 도구 호출 성능 58% 향상 방법

Qwen3로 ReAct 에이전트 실패를 디버깅하는 동안, 한 개발자가 도구 호출 직전의 숨겨진 상태가 AUC > 0.94로 비도구 상태와 선형 분리 가능함을 발견했습니다. 이 잠재 공간의 방향은 "에이전시(agency)"를 의미하는 Â로 불리며, 1.7B에서 8B까지 다양한 모델 크기에 걸쳐 존재하며 선형 프로브만 사용하여 도구 호출을 예측합니다.

에이전시 신호 사용 방법

추론 중에 각 숨겨진 상태를 Â에 투영합니다. 투영값이 임계값 θ를 초과하면, 모델이 텍스트로 표현하지 않더라도 도구를 호출하려는 의도를 가집니다. 그런 다음 도구 호출을 강제할 수 있습니다.

# 추론 시 (의사 코드)
hidden_state = get_middle_layer_state(model, input_text)
proj = np.dot(hidden_state, Â)
if proj > threshold:
    # 모델이 행동하려 함 → 도구 호출 강제
    tool = choose_tool() # 학습 또는 휴리스틱으로 선택 가능
    result = execute_tool(tool)
else:
    # 일반 생성
    output = model.generate(input_text)

성능 결과

Qwen3 모델로 40가지 다양한 작업(검색, 코드, 파일, 통신, 데이터)에서 테스트:

Qwen3-1.7B: 26.7% → 85% (+58% 향상)
Qwen3-8B: 52.5% → 76.3% (+23% 향상)

"도구 미사용" 실패 모드가 43%에서 2.6%로 감소했습니다. 작은 모델이 텍스트 디코딩 능력이 약하기 때문에 더 큰 혜택을 보지만, 기하학적 신호는 동등하게 강력합니다.

Â 추출 방법

세 가지 방법:

옵션 1: 자체 추적 데이터에서 - 도구 사용과 비사용 숨겨진 상태 간의 정규화된 평균 차이 계산
옵션 2: 대조 프롬프트를 통해 - 모델을 통해 15쌍의 프롬프트(도구 필요 프롬프트와 수동적 프롬프트)를 실행하고 중간 레이어에서 평균 차이 취함
옵션 3: 사전 계산된 방향 사용 - 저장소에서 공유된 Qwen3 모델용 추출된 Â 방향 사용

패키지 구현

이 발견은 쉽게 재사용할 수 있도록 라이브러리로 패키징되었습니다:

bash
pip install a-hat-optimizer

python
from a_hat_optimizer import AHat

# 1줄로 모든 HF 모델에서 자동 추출
ahat = AHat.from_model("Qwen/Qwen3-8B")

# 또는 사전 추출된 것 로드
ahat = AHat.from_file("my_ahat_dir/")

# 에이전트에서 사용
should_call, confidence = ahat.predict(hidden_state)
if should_call:
    print(f"도구 호출 강제 (신뢰도: {confidence:.2f})")

라이브러리는 대조 프롬프트를 통한 자동 추출, 4가지 보정 전략(중간점, F1, 유덴, 백분위수), 배치 예측, AUC 및 레이어 정보를 포함한 메타데이터와 함께 저장/로드를 처리합니다.

📖 전체 소스 읽기: r/LocalLLaMA