Phi-4-mini LayerNorm微調整の失敗

実験設定と方法論

この実験では、Phi-4-mini-instruct（3.8B、32層）のファインチューニングを、LayerNormパラメータのみを訓練するアプローチ（BALLASTと呼称）でテストしました。モデルはMac Studio M3 Ultra 256GB上で、MLXを介したmlx_lmの組み込みtrain()関数を使用し、GPU使用率97%で実行されました。追跡にはセルフホスト型のW&Bが使用されました。

重要な注意点：Phi-4-miniは完全なLayerNormではなくRMSNormを使用しており、γ値のみでバイアスはありません。著者は、肯定的な結果を示した公開論文がγとβの両方のパラメータを持つモデルを使用しており、これは当初認識されていた以上に重要である可能性があることを認めています。

ベンチマーク結果

バニラPhi-4-mini（訓練なし）のベースラインスコア：

HumanEval pass@1: 0.646
MBPP pass@1: 0.558
MMLU acc: 0.667
ARC-Challenge acc_norm: 0.595
HellaSwag acc_norm: 0.728
MedQA acc: 0.545
GSM8K exact_match: 0.813

実験1：Pythonドメイン

The Stackの10KファイルでLR=5e-5、3エポック訓練：

BALLAST（196Kパラメータ）：損失1.39、HumanEval 0.616（-0.030）、MBPP 0.526（-0.032）
LoRA-Match（180Kパラメータ）：損失1.30、HumanEval 0.634（-0.012）、MBPP 0.536（-0.022）
LoRA-Std（11.5Mパラメータ）：損失1.07、HumanEval 0.439（-0.207）、MBPP 0.372（-0.186）

LoRA-Standardは古典的な過学習を示し、11.5Mパラメータが10Kファイルを記憶し、汎化可能なパターンを学習しませんでした。BALLASTにLR=1e-4で追加テストを行うと、損失は1.31まで低下した後、2300イテレーションで1.44以上に上昇しました。

実験2：医療生テキスト

10KのPubMed抄録でLR=5e-5、3エポック訓練：

BALLAST：MedQA 0.528（-0.017）
LoRA-Match：MedQA 0.546（+0.001）
LoRA-Std：MedQA 0.465（-0.080）

著者は、初心者の過ちとして、次のトークン予測として生のPubMed抄録で訓練することは、多肢選択式の症例を通じて臨床推論をテストするMedQAには役立たないと指摘しています。

実験3：医療指示QA

10KのMedMCQA質問を使用し、LR=1e-5で3エポック訓練。形式：「質問：... A) X B) Y C) Z D) W 回答：B」

BALLAST：MedQA 0.538（-0.007）

学習率テストのまとめ

PythonでのLR=1e-4：オーバーシュートし、2300イテレーションで損失が発散
PythonでのLR=5e-5：平坦、ベンチマークでわずかな低下
医療（生テキスト）でのLR=5e-5：平坦、MedQAでわずかな低下
医療（指示QA）でのLR=1e-5：平坦、MedQAでわずかな低下

主な発見

LayerNormのγ値のみを訓練しても、どのベンチマークでも性能は向上せず、Python、医療QA、どの学習率でも同様でした。著者は、トランスフォーマーがすでにアテンションを通じて情報を動的にルーティングしているため、LayerNormを追加の関係性方向性層として使用しようとする意味はないと結論づけています。この実験では、Phi-4-miniのLoRAの11.5Mパラメータと比較して、わずか196Kの訓練可能パラメータ（モデルの0.005%）のみが使用されました。

📖 Read the full source: r/LocalLLaMA