Тонкая настройка Phi-4-mini путем обучения только параметров LayerNorm не приводит к улучшению производительности.

✍️ OpenClawRadar📅 Опубликовано: 21 апреля 2026 г.🔗 Source
Тонкая настройка Phi-4-mini путем обучения только параметров LayerNorm не приводит к улучшению производительности.
Ad

Экспериментальная установка и методология

Эксперимент тестировал дообучение модели Phi-4-mini-instruct (3.8B, 32 слоя) путём обучения только параметров LayerNorm, назвав подход BALLAST. Модель запускалась на Mac Studio M3 Ultra 256GB с использованием MLX через встроенную функцию train() из mlx_lm с загрузкой GPU на 97%. Для отслеживания использовался самостоятельно размещённый W&B.

Важное замечание: Phi-4-mini использует RMSNorm, а не полный LayerNorm — только значения γ, без смещения. Автор признаёт, что опубликованные работы, показывающие положительные результаты, использовали модели с обоими параметрами γ и β, что, вероятно, важнее, чем изначально предполагалось.

Результаты тестирования

Базовые показатели для оригинальной Phi-4-mini (без обучения):

  • HumanEval pass@1: 0.646
  • MBPP pass@1: 0.558
  • MMLU acc: 0.667
  • ARC-Challenge acc_norm: 0.595
  • HellaSwag acc_norm: 0.728
  • MedQA acc: 0.545
  • GSM8K exact_match: 0.813

Эксперимент 1: Python-область

Обучение на 10K файлах из The Stack со скоростью обучения LR=5e-5 в течение 3 эпох:

  • BALLAST (196K параметров): Потери 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
  • LoRA-Match (180K параметров): Потери 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
  • LoRA-Std (11.5M параметров): Потери 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard показал классическое переобучение — 11.5M параметров запомнили 10K файлов вместо изучения обобщаемых паттернов. Дополнительное тестирование с LR=1e-4 для BALLAST показало снижение потерь до 1.31 с последующим ростом выше 1.44 к итерации 2300.

Ad

Эксперимент 2: Медицинский сырой текст

Обучение на 10K аннотациях из PubMed со скоростью обучения LR=5e-5 в течение 3 эпох:

  • BALLAST: MedQA 0.528 (-0.017)
  • LoRA-Match: MedQA 0.546 (+0.001)
  • LoRA-Std: MedQA 0.465 (-0.080)

Автор отмечает ошибку новичка: обучение на сырых аннотациях PubMed как предсказание следующего токена не помогает с MedQA, которая тестирует клиническое мышление через сценарии с множественным выбором.

Эксперимент 3: Медицинские вопросы-ответы с инструкциями

Исправленный формат данных с использованием 10K вопросов MedMCQA со скоростью обучения LR=1e-5 в течение 3 эпох. Формат: "Вопрос: ... A) X B) Y C) Z D) W Ответ: B"

  • BALLAST: MedQA 0.538 (-0.007)

Сводка тестирования скорости обучения

  • LR=1e-4 на Python: Превышение, потери разошлись к итерации 2300
  • LR=5e-5 на Python: Без изменений, незначительное ухудшение на тестах
  • LR=5e-5 на медицинских данных (сырой текст): Без изменений, незначительное ухудшение на MedQA
  • LR=1e-5 на медицинских данных (вопросы-ответы с инструкциями): Без изменений, незначительное ухудшение на MedQA

Ключевые выводы

Обучение только значений γ в LayerNorm не улучшает производительность ни на одном из протестированных тестов — ни на Python, ни на медицинских вопросах-ответах, ни при любой скорости обучения. Автор приходит к выводу, что трансформеры уже динамически направляют информацию через механизм внимания, поэтому нет смысла пытаться использовать LayerNorm в качестве дополнительного слоя для управления направленностью связей. В эксперименте использовалось всего 196K обучаемых параметров (0.005% модели) по сравнению с 11.5M параметрами LoRA в Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Claude.ai испытывает повышенное количество ошибок и проблемы со входом в систему
Новости

Claude.ai испытывает повышенное количество ошибок и проблемы со входом в систему

Claude.ai сообщает о повышенном количестве ошибок, влияющих на платформу, включая проблемы со входом, в частности для Claude Code. Инцидент был официально опубликован 11 марта 2026 года в 17:19:35 по UTC.

OpenClawRadar
Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent
Новости

Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent

Продуктовый агент кредитного риска на базе Claude на Snowflake Cortex Agent нуждается в регрессионном тестировании. Сейчас команда вручную сравнивает результаты с BI-запросами, стремясь к автоматизации оценки изменений навыков.

OpenClawRadar
OpenAI Codex OAuth возвращает ошибки 429 с 16 марта, несмотря на полную квоту.
Новости

OpenAI Codex OAuth возвращает ошибки 429 с 16 марта, несмотря на полную квоту.

OpenAI Codex OAuth постоянно возвращает ошибки 429 "вы превысили текущую квоту" с 16 марта, даже когда дашборды показывают 100% доступной квоты. Пользователи сообщают, что проблема сохраняется, несмотря на повторную аутентификацию, отзыв токенов и полную переконфигурацию.

OpenClawRadar
Тестирование OpenClaw на UmbrelOS: Что нужно знать
Новости

Тестирование OpenClaw на UmbrelOS: Что нужно знать

Интеграция OpenClaw с UmbrelOS находится на стадии изучения, что может предложить новую среду для усовершенствованных инструментов кодирования с использованием ИИ.

OpenClawRadar