Phi-4-mini의 LayerNorm 매개변수만을 훈련하는 미세 조정은 성능 향상에 실패합니다

✍️ OpenClawRadar📅 게시일: April 21, 2026🔗 Source
Phi-4-mini의 LayerNorm 매개변수만을 훈련하는 미세 조정은 성능 향상에 실패합니다
Ad

실험 설정 및 방법론

이 실험은 레이어노름 매개변수만을 학습하는 BALLAST라는 접근법으로 파이-4-미니-인스트럭트(3.8B, 32 레이어)를 미세 조정하는 것을 테스트했습니다. 모델은 MLX의 mlx_lm 내장 train() 함수를 통해 97% GPU 사용률로 Mac Studio M3 Ultra 256GB에서 실행되었습니다. 자체 호스팅 W&B가 추적에 사용되었습니다.

중요 참고: 파이-4-미니는 전체 레이어노름이 아닌 RMSNorm을 사용합니다 - γ 값만 있고 편향은 없습니다. 저자는 긍정적인 결과를 보인 논문들이 γ와 β 매개변수를 모두 가진 모델을 사용했으며, 이는 처음 생각했던 것보다 더 중요할 가능성이 있다고 인정합니다.

벤치마크 결과

기본 파이-4-미니(학습 없음)의 기준 점수:

  • HumanEval pass@1: 0.646
  • MBPP pass@1: 0.558
  • MMLU acc: 0.667
  • ARC-Challenge acc_norm: 0.595
  • HellaSwag acc_norm: 0.728
  • MedQA acc: 0.545
  • GSM8K exact_match: 0.813

실험 1: 파이썬 도메인

The Stack의 10K 파일로 LR=5e-5, 3 에폭 학습:

  • BALLAST (196K 매개변수): 손실 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
  • LoRA-Match (180K 매개변수): 손실 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
  • LoRA-Std (11.5M 매개변수): 손실 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard는 전형적인 과적합을 보였습니다 - 11.5M 매개변수가 10K 파일을 암기하며 일반화 가능한 패턴을 학습하지 못했습니다. BALLAST에 LR=1e-4로 추가 테스트 시 손실이 1.31로 떨어졌다가 2300번째 반복에서 1.44 이상으로 다시 상승했습니다.

Ad

실험 2: 의료 원시 텍스트

10K PubMed 초록으로 LR=5e-5, 3 에폭 학습:

  • BALLAST: MedQA 0.528 (-0.017)
  • LoRA-Match: MedQA 0.546 (+0.001)
  • LoRA-Std: MedQA 0.465 (-0.080)

저자는 초보자 실수를 지적합니다: 다음 토큰 예측으로 원시 PubMed 초록을 학습하는 것은 임상 추론을 다중 선택 시나리오로 테스트하는 MedQA에 도움이 되지 않습니다.

실험 3: 의료 지시 QA

10K MedMCQA 질문으로 LR=1e-5, 3 에폭 학습, 데이터 형식 고정. 형식: "질문: ... A) X B) Y C) Z D) W 답변: B"

  • BALLAST: MedQA 0.538 (-0.007)

학습률 테스트 요약

  • 파이썬에서 LR=1e-4: 과도 학습, 2300번째 반복에서 손실 발산
  • 파이썬에서 LR=5e-5: 평탄, 벤치마크에서 약간의 성능 저하
  • 의료(원시 텍스트)에서 LR=5e-5: 평탄, MedQA에서 약간의 성능 저하
  • 의료(지시 QA)에서 LR=1e-5: 평탄, MedQA에서 약간의 성능 저하

주요 발견

레이어노름 γ 값만을 학습하는 것은 테스트된 어떤 벤치마크에서도 성능을 향상시키지 않았습니다 - 파이썬에서도, 의료 QA에서도, 어떤 학습률에서도 아닙니다. 저자는 트랜스포머가 이미 어텐션을 통해 정보를 동적으로 라우팅하고 있기 때문에 레이어노름을 추가적인 관계적 방향성 레이어로 사용하려는 시도는 의미가 없다고 결론지었습니다. 이 실험은 파이-4-미니에서 LoRA의 11.5M 매개변수에 비해 단 196K의 학습 가능 매개변수(모델의 0.005%)만을 사용했습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

🦀
News

FairyFuse, CPU에서 삼진 가중치 곱셈 없는 추론을 통해 29.6배 커널 속도 향상 달성

FairyFuse는 8개의 실수값 서브-GEMV를 마스크된 덧셈/뺄셈을 사용하여 단일 AVX-512 루프로 융합합니다. Xeon 8558P에서 32.4 tokens/s를 달성하며, 거의 손실 없는 품질로 llama.cpp Q4_K_M보다 1.24배 빠릅니다.

OpenClawRadar
국방부, 앤트로픽 사태 이후 단일 AI 공급업체 금지... AWS, 구글, 마이크로소프트, 엔비디아, 오픈AI, 오라클, 스페이스X와 계약 체결
News

국방부, 앤트로픽 사태 이후 단일 AI 공급업체 금지... AWS, 구글, 마이크로소프트, 엔비디아, 오픈AI, 오라클, 스페이스X와 계약 체결

국방부 차관 에밀 마이클은 통합 복잡성과 최근 앤트로픽과의 분쟁을 이유로 미 국방부가 '다시는' 단일 AI 모델 제공업체에 의존하지 않을 것이라고 밝혔다. 8개 AI 기업과의 새로운 계약은 기술 스택을 다각화하는 것을 목표로 한다.

OpenClawRadar
로봇공학의 세 가지 역법칙: AI 사용을 위한 인간 지침
News

로봇공학의 세 가지 역법칙: AI 사용을 위한 인간 지침

Susam Pal은 인간을 위한 세 가지 역로봇공학 법칙을 제안합니다: AI를 의인화하지 말고, 그 출력을 맹신하지 말며, 전적인 책임을 유지하라는 것입니다. 생성형 AI에 대한 과도한 의존을 경계하는 실용적인 경고입니다.

OpenClawRadar
인도의 사르밤과 크루트림은 현지 수요에 맞춘 경제적인 AI 모델을 구축합니다.
News

인도의 사르밤과 크루트림은 현지 수요에 맞춘 경제적인 AI 모델을 구축합니다.

인도 스타트업 Sarvam AI와 Krutrim은 저사양 스마트폰과 낮은 대역폭 네트워크에 최적화된 주권 AI 모델을 개발하고 있으며, Sarvam의 240억 개 파라미터 SarvamM 모델은 10개 인도 언어로 훈련되었습니다.

OpenClawRadar