Phi-4-miniのLayerNormパラメータのみを訓練する微調整は、性能向上に失敗しました。

実験設定と方法論
この実験では、Phi-4-mini-instruct(3.8B、32層)のファインチューニングを、LayerNormパラメータのみを訓練するアプローチ(BALLASTと呼称)でテストしました。モデルはMac Studio M3 Ultra 256GB上で、MLXを介したmlx_lmの組み込みtrain()関数を使用し、GPU使用率97%で実行されました。追跡にはセルフホスト型のW&Bが使用されました。
重要な注意点:Phi-4-miniは完全なLayerNormではなくRMSNormを使用しており、γ値のみでバイアスはありません。著者は、肯定的な結果を示した公開論文がγとβの両方のパラメータを持つモデルを使用しており、これは当初認識されていた以上に重要である可能性があることを認めています。
ベンチマーク結果
バニラPhi-4-mini(訓練なし)のベースラインスコア:
- HumanEval pass@1: 0.646
- MBPP pass@1: 0.558
- MMLU acc: 0.667
- ARC-Challenge acc_norm: 0.595
- HellaSwag acc_norm: 0.728
- MedQA acc: 0.545
- GSM8K exact_match: 0.813
実験1:Pythonドメイン
The Stackの10KファイルでLR=5e-5、3エポック訓練:
- BALLAST(196Kパラメータ):損失1.39、HumanEval 0.616(-0.030)、MBPP 0.526(-0.032)
- LoRA-Match(180Kパラメータ):損失1.30、HumanEval 0.634(-0.012)、MBPP 0.536(-0.022)
- LoRA-Std(11.5Mパラメータ):損失1.07、HumanEval 0.439(-0.207)、MBPP 0.372(-0.186)
LoRA-Standardは古典的な過学習を示し、11.5Mパラメータが10Kファイルを記憶し、汎化可能なパターンを学習しませんでした。BALLASTにLR=1e-4で追加テストを行うと、損失は1.31まで低下した後、2300イテレーションで1.44以上に上昇しました。
実験2:医療生テキスト
10KのPubMed抄録でLR=5e-5、3エポック訓練:
- BALLAST:MedQA 0.528(-0.017)
- LoRA-Match:MedQA 0.546(+0.001)
- LoRA-Std:MedQA 0.465(-0.080)
著者は、初心者の過ちとして、次のトークン予測として生のPubMed抄録で訓練することは、多肢選択式の症例を通じて臨床推論をテストするMedQAには役立たないと指摘しています。
実験3:医療指示QA
10KのMedMCQA質問を使用し、LR=1e-5で3エポック訓練。形式:「質問:... A) X B) Y C) Z D) W 回答:B」
- BALLAST:MedQA 0.538(-0.007)
学習率テストのまとめ
- PythonでのLR=1e-4:オーバーシュートし、2300イテレーションで損失が発散
- PythonでのLR=5e-5:平坦、ベンチマークでわずかな低下
- 医療(生テキスト)でのLR=5e-5:平坦、MedQAでわずかな低下
- 医療(指示QA)でのLR=1e-5:平坦、MedQAでわずかな低下
主な発見
LayerNormのγ値のみを訓練しても、どのベンチマークでも性能は向上せず、Python、医療QA、どの学習率でも同様でした。著者は、トランスフォーマーがすでにアテンションを通じて情報を動的にルーティングしているため、LayerNormを追加の関係性方向性層として使用しようとする意味はないと結論づけています。この実験では、Phi-4-miniのLoRAの11.5Mパラメータと比較して、わずか196Kの訓練可能パラメータ(モデルの0.005%)のみが使用されました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude-Code v2.1.78: プラグイン状態、ストリーミング応答、および重要な修正
Claude-Code v2.1.78では、${CLAUDE_PLUGIN_DATA}によるプラグインの永続的状態の追加、行単位のレスポンスストリーミング、APIエラーループの修正、権限バイパス問題の解決、サンドボックスセキュリティ警告の改善が行われました。

国防総省とAI企業アンソロピックの間で緊張が高まる
ペンタゴンがベネズエラでの襲撃など機密作戦にAnthropicのAIを利用したことで、同社のAI安全方針をめぐる緊張が生じている。

Gemma 4 対 Qwen 3.5 のブラインド評価結果(Claude Opus が審査員)
Claude Opus 4.6を審査員として使用し、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27Bを比較する30問のブラインド評価が行われました。Qwen 3.5 27Bは対戦の46.7%で勝利しましたが、3つのゼロ点回答により平均スコアは低くなりました。

Google AIの概要、カナダのフィドル奏者を誤って性犯罪者と表示、訴訟提起
アシュリー・マクアイザック氏は、GoogleのAI Overviewが虚偽の情報(彼が有罪判決を受けた性犯罪者であるなど)を生成し、コンサートが中止に追い込まれたとして、150万ドルの訴訟を起こした。