Phi-4-mini LayerNorm 미세 조정 실패: 성능 저하 확인

실험 설정 및 방법론

이 실험은 레이어노름 매개변수만을 학습하는 BALLAST라는 접근법으로 파이-4-미니-인스트럭트(3.8B, 32 레이어)를 미세 조정하는 것을 테스트했습니다. 모델은 MLX의 mlx_lm 내장 train() 함수를 통해 97% GPU 사용률로 Mac Studio M3 Ultra 256GB에서 실행되었습니다. 자체 호스팅 W&B가 추적에 사용되었습니다.

중요 참고: 파이-4-미니는 전체 레이어노름이 아닌 RMSNorm을 사용합니다 - γ 값만 있고 편향은 없습니다. 저자는 긍정적인 결과를 보인 논문들이 γ와 β 매개변수를 모두 가진 모델을 사용했으며, 이는 처음 생각했던 것보다 더 중요할 가능성이 있다고 인정합니다.

벤치마크 결과

기본 파이-4-미니(학습 없음)의 기준 점수:

HumanEval pass@1: 0.646
MBPP pass@1: 0.558
MMLU acc: 0.667
ARC-Challenge acc_norm: 0.595
HellaSwag acc_norm: 0.728
MedQA acc: 0.545
GSM8K exact_match: 0.813

실험 1: 파이썬 도메인

The Stack의 10K 파일로 LR=5e-5, 3 에폭 학습:

BALLAST (196K 매개변수): 손실 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
LoRA-Match (180K 매개변수): 손실 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
LoRA-Std (11.5M 매개변수): 손실 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard는 전형적인 과적합을 보였습니다 - 11.5M 매개변수가 10K 파일을 암기하며 일반화 가능한 패턴을 학습하지 못했습니다. BALLAST에 LR=1e-4로 추가 테스트 시 손실이 1.31로 떨어졌다가 2300번째 반복에서 1.44 이상으로 다시 상승했습니다.

실험 2: 의료 원시 텍스트

10K PubMed 초록으로 LR=5e-5, 3 에폭 학습:

BALLAST: MedQA 0.528 (-0.017)
LoRA-Match: MedQA 0.546 (+0.001)
LoRA-Std: MedQA 0.465 (-0.080)

저자는 초보자 실수를 지적합니다: 다음 토큰 예측으로 원시 PubMed 초록을 학습하는 것은 임상 추론을 다중 선택 시나리오로 테스트하는 MedQA에 도움이 되지 않습니다.

실험 3: 의료 지시 QA

10K MedMCQA 질문으로 LR=1e-5, 3 에폭 학습, 데이터 형식 고정. 형식: "질문: ... A) X B) Y C) Z D) W 답변: B"

BALLAST: MedQA 0.538 (-0.007)

학습률 테스트 요약

파이썬에서 LR=1e-4: 과도 학습, 2300번째 반복에서 손실 발산
파이썬에서 LR=5e-5: 평탄, 벤치마크에서 약간의 성능 저하
의료(원시 텍스트)에서 LR=5e-5: 평탄, MedQA에서 약간의 성능 저하
의료(지시 QA)에서 LR=1e-5: 평탄, MedQA에서 약간의 성능 저하

주요 발견

레이어노름 γ 값만을 학습하는 것은 테스트된 어떤 벤치마크에서도 성능을 향상시키지 않았습니다 - 파이썬에서도, 의료 QA에서도, 어떤 학습률에서도 아닙니다. 저자는 트랜스포머가 이미 어텐션을 통해 정보를 동적으로 라우팅하고 있기 때문에 레이어노름을 추가적인 관계적 방향성 레이어로 사용하려는 시도는 의미가 없다고 결론지었습니다. 이 실험은 파이-4-미니에서 LoRA의 11.5M 매개변수에 비해 단 196K의 학습 가능 매개변수(모델의 0.005%)만을 사용했습니다.

📖 Read the full source: r/LocalLLaMA