Das Feinabstimmen von Phi-4-mini durch das Trainieren ausschließlich der LayerNorm-Parameter führt zu keiner Leistungsverbesserung.

✍️ OpenClawRadar📅 Veröffentlicht: 21. April 2026🔗 Source
Das Feinabstimmen von Phi-4-mini durch das Trainieren ausschließlich der LayerNorm-Parameter führt zu keiner Leistungsverbesserung.
Ad

Experimenteller Aufbau und Methodik

Das Experiment testete das Fine-Tuning von Phi-4-mini-instruct (3,8B, 32 Schichten) durch Training nur der LayerNorm-Parameter, wobei der Ansatz BALLAST genannt wurde. Das Modell wurde auf einem Mac Studio M3 Ultra 256GB unter Verwendung von MLX über die integrierte train()-Funktion von mlx_lm mit 97 % GPU-Auslastung ausgeführt. Für das Tracking wurde eine selbst gehostete W&B-Instanz verwendet.

Wichtiger Hinweis: Phi-4-mini verwendet RMSNorm, nicht vollständiges LayerNorm – nur γ-Werte, keine Bias-Parameter. Der Autor räumt ein, dass veröffentlichte Arbeiten mit positiven Ergebnissen Modelle mit sowohl γ- als auch β-Parametern verwendeten, was wahrscheinlich bedeutender ist als ursprünglich angenommen.

Benchmark-Ergebnisse

Basiswerte für das unveränderte Phi-4-mini (kein Training):

  • HumanEval pass@1: 0,646
  • MBPP pass@1: 0,558
  • MMLU acc: 0,667
  • ARC-Challenge acc_norm: 0,595
  • HellaSwag acc_norm: 0,728
  • MedQA acc: 0,545
  • GSM8K exact_match: 0,813

Experiment 1: Python-Domäne

Trainiert mit 10.000 Dateien von The Stack mit LR=5e-5 für 3 Epochen:

  • BALLAST (196K Parameter): Verlust 1,39, HumanEval 0,616 (-0,030), MBPP 0,526 (-0,032)
  • LoRA-Match (180K Parameter): Verlust 1,30, HumanEval 0,634 (-0,012), MBPP 0,536 (-0,022)
  • LoRA-Std (11,5M Parameter): Verlust 1,07, HumanEval 0,439 (-0,207), MBPP 0,372 (-0,186)

LoRA-Standard zeigte klassisches Overfitting – 11,5 Millionen Parameter merkten sich 10.000 Dateien, anstatt generalisierbare Muster zu lernen. Zusätzliche Tests mit LR=1e-4 für BALLAST zeigten, dass der Verlust auf 1,31 sank und dann bis zur Iteration 2300 wieder über 1,44 stieg.

Ad

Experiment 2: Medizinischer Rohtext

Trainiert mit 10.000 PubMed-Abstracts mit LR=5e-5 für 3 Epochen:

  • BALLAST: MedQA 0,528 (-0,017)
  • LoRA-Match: MedQA 0,546 (+0,001)
  • LoRA-Std: MedQA 0,465 (-0,080)

Der Autor weist auf einen Anfängerfehler hin: Das Training auf rohen PubMed-Abstracts als Next-Token-Vorhersage hilft nicht bei MedQA, das klinisches Denken durch Multiple-Choice-Vignetten testet.

Experiment 3: Medizinische Instruktions-Fragen

Korrigiertes Datenformat mit 10.000 MedMCQA-Fragen mit LR=1e-5 für 3 Epochen. Format: "Frage: ... A) X B) Y C) Z D) W Antwort: B"

  • BALLAST: MedQA 0,538 (-0,007)

Zusammenfassung der Lernratentests

  • LR=1e-4 bei Python: Überschossen, Verlust divergierte bis Iteration 2300
  • LR=5e-5 bei Python: Flach, leichte Verschlechterung bei Benchmarks
  • LR=5e-5 bei Medizin (Rohtext): Flach, leichte Verschlechterung bei MedQA
  • LR=1e-5 bei Medizin (Instruktions-Fragen): Flach, leichte Verschlechterung bei MedQA

Wesentliche Erkenntnisse

Das Training nur der LayerNorm-γ-Werte verbessert die Leistung bei keinem getesteten Benchmark – weder bei Python, noch bei medizinischen Fragen, noch bei irgendeiner Lernrate. Der Autor schlussfolgert, dass Transformer-Modelle Informationen bereits dynamisch durch Attention lenken, sodass es keinen Sinn macht, LayerNorm als zusätzliche relationale Richtungsschicht zu verwenden. Das Experiment verwendete nur 196.000 trainierbare Parameter (0,005 % des Modells) im Vergleich zu 11,5 Millionen Parametern bei LoRA in Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen
Nachrichten

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen

Ein Entwickler testete mehrere KI-Agenten-Marktplätze und stellte fest, dass ClawGig nicht reagierende Agenten und manipulierte Reputationsbewertungen hatte, RentAHuman-Agenten keine zusammenhängenden Gespräche führen konnten, während unabhängige OpenClaw-basierte Einrichtungen vielversprechend waren, aber schwer zu finden waren.

OpenClawRadar
Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6
Nachrichten

Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6

Ein Benchmark testete 10 LLMs auf die Entwicklung von Handelsstrategien, wobei günstigere Modelle wie Minimax 2.5 und Gemini 3.1 trotz ihrer 10-fach höheren Kosten Claude Opus 4.6 übertrafen. Das Experiment wurde dreimal mit konsistenten Ergebnissen durchgeführt.

OpenClawRadar
🦀
Nachrichten

Die alltägliche Gefahr: Warum die größten Bedrohungen der KI-Sicherheit langweilig und nicht dramatisch sind

Ein Essay argumentiert, dass alltägliche KI-Versagen bereits Schaden in großem Maßstab verursachen, aktuelle Alignment-Ansätze zu stark von geschützten Umgebungen abhängen und dass die Konvergenz der Fähigkeiten eine versehentliche Exposition in der offenen Welt immer wahrscheinlicher macht.

OpenClawRadar
Indien und VAE kooperieren bei KI-Souveränität mit Cerebras-Supercomputern
Nachrichten

Indien und VAE kooperieren bei KI-Souveränität mit Cerebras-Supercomputern

Indien und die VAE haben sich zusammengetan, um einen Cerebras-gestützten KI-Supercomputer auf indischem Boden zu installieren und damit die US-Cloud-Giganten zu umgehen. Der Deal mit G42 gibt Indien Maschinenbesitz und Datenhoheit.

OpenClawRadar