Phi-4-mini LayerNorm-Training: Keine Leistungssteigerung

Experimenteller Aufbau und Methodik

Das Experiment testete das Fine-Tuning von Phi-4-mini-instruct (3,8B, 32 Schichten) durch Training nur der LayerNorm-Parameter, wobei der Ansatz BALLAST genannt wurde. Das Modell wurde auf einem Mac Studio M3 Ultra 256GB unter Verwendung von MLX über die integrierte train()-Funktion von mlx_lm mit 97 % GPU-Auslastung ausgeführt. Für das Tracking wurde eine selbst gehostete W&B-Instanz verwendet.

Wichtiger Hinweis: Phi-4-mini verwendet RMSNorm, nicht vollständiges LayerNorm – nur γ-Werte, keine Bias-Parameter. Der Autor räumt ein, dass veröffentlichte Arbeiten mit positiven Ergebnissen Modelle mit sowohl γ- als auch β-Parametern verwendeten, was wahrscheinlich bedeutender ist als ursprünglich angenommen.

Benchmark-Ergebnisse

Basiswerte für das unveränderte Phi-4-mini (kein Training):

HumanEval pass@1: 0,646
MBPP pass@1: 0,558
MMLU acc: 0,667
ARC-Challenge acc_norm: 0,595
HellaSwag acc_norm: 0,728
MedQA acc: 0,545
GSM8K exact_match: 0,813

Experiment 1: Python-Domäne

Trainiert mit 10.000 Dateien von The Stack mit LR=5e-5 für 3 Epochen:

BALLAST (196K Parameter): Verlust 1,39, HumanEval 0,616 (-0,030), MBPP 0,526 (-0,032)
LoRA-Match (180K Parameter): Verlust 1,30, HumanEval 0,634 (-0,012), MBPP 0,536 (-0,022)
LoRA-Std (11,5M Parameter): Verlust 1,07, HumanEval 0,439 (-0,207), MBPP 0,372 (-0,186)

LoRA-Standard zeigte klassisches Overfitting – 11,5 Millionen Parameter merkten sich 10.000 Dateien, anstatt generalisierbare Muster zu lernen. Zusätzliche Tests mit LR=1e-4 für BALLAST zeigten, dass der Verlust auf 1,31 sank und dann bis zur Iteration 2300 wieder über 1,44 stieg.

Experiment 2: Medizinischer Rohtext

Trainiert mit 10.000 PubMed-Abstracts mit LR=5e-5 für 3 Epochen:

BALLAST: MedQA 0,528 (-0,017)
LoRA-Match: MedQA 0,546 (+0,001)
LoRA-Std: MedQA 0,465 (-0,080)

Der Autor weist auf einen Anfängerfehler hin: Das Training auf rohen PubMed-Abstracts als Next-Token-Vorhersage hilft nicht bei MedQA, das klinisches Denken durch Multiple-Choice-Vignetten testet.

Experiment 3: Medizinische Instruktions-Fragen

Korrigiertes Datenformat mit 10.000 MedMCQA-Fragen mit LR=1e-5 für 3 Epochen. Format: "Frage: ... A) X B) Y C) Z D) W Antwort: B"

BALLAST: MedQA 0,538 (-0,007)

Zusammenfassung der Lernratentests

LR=1e-4 bei Python: Überschossen, Verlust divergierte bis Iteration 2300
LR=5e-5 bei Python: Flach, leichte Verschlechterung bei Benchmarks
LR=5e-5 bei Medizin (Rohtext): Flach, leichte Verschlechterung bei MedQA
LR=1e-5 bei Medizin (Instruktions-Fragen): Flach, leichte Verschlechterung bei MedQA

Wesentliche Erkenntnisse

Das Training nur der LayerNorm-γ-Werte verbessert die Leistung bei keinem getesteten Benchmark – weder bei Python, noch bei medizinischen Fragen, noch bei irgendeiner Lernrate. Der Autor schlussfolgert, dass Transformer-Modelle Informationen bereits dynamisch durch Attention lenken, sodass es keinen Sinn macht, LayerNorm als zusätzliche relationale Richtungsschicht zu verwenden. Das Experiment verwendete nur 196.000 trainierbare Parameter (0,005 % des Modells) im Vergleich zu 11,5 Millionen Parametern bei LoRA in Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

Das Feinabstimmen von Phi-4-mini durch das Trainieren ausschließlich der LayerNorm-Parameter führt zu keiner Leistungsverbesserung.

Experimenteller Aufbau und Methodik

Benchmark-Ergebnisse

Experiment 1: Python-Domäne

Experiment 2: Medizinischer Rohtext

Experiment 3: Medizinische Instruktions-Fragen

Zusammenfassung der Lernratentests

Wesentliche Erkenntnisse

👀 Siehe auch

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen

Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6

Die alltägliche Gefahr: Warum die größten Bedrohungen der KI-Sicherheit langweilig und nicht dramatisch sind

Indien und VAE kooperieren bei KI-Souveränität mit Cerebras-Supercomputern