Тонкая настройка Phi-4-mini путем обучения только параметров LayerNorm не приводит к улучшению производительности.

✍️ OpenClawRadar📅 Опубликовано: 21 апреля 2026 г.🔗 Source

Экспериментальная установка и методология

Эксперимент тестировал дообучение модели Phi-4-mini-instruct (3.8B, 32 слоя) путём обучения только параметров LayerNorm, назвав подход BALLAST. Модель запускалась на Mac Studio M3 Ultra 256GB с использованием MLX через встроенную функцию train() из mlx_lm с загрузкой GPU на 97%. Для отслеживания использовался самостоятельно размещённый W&B.

Важное замечание: Phi-4-mini использует RMSNorm, а не полный LayerNorm — только значения γ, без смещения. Автор признаёт, что опубликованные работы, показывающие положительные результаты, использовали модели с обоими параметрами γ и β, что, вероятно, важнее, чем изначально предполагалось.

Результаты тестирования

Базовые показатели для оригинальной Phi-4-mini (без обучения):

HumanEval pass@1: 0.646
MBPP pass@1: 0.558
MMLU acc: 0.667
ARC-Challenge acc_norm: 0.595
HellaSwag acc_norm: 0.728
MedQA acc: 0.545
GSM8K exact_match: 0.813

Эксперимент 1: Python-область

Обучение на 10K файлах из The Stack со скоростью обучения LR=5e-5 в течение 3 эпох:

BALLAST (196K параметров): Потери 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
LoRA-Match (180K параметров): Потери 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
LoRA-Std (11.5M параметров): Потери 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard показал классическое переобучение — 11.5M параметров запомнили 10K файлов вместо изучения обобщаемых паттернов. Дополнительное тестирование с LR=1e-4 для BALLAST показало снижение потерь до 1.31 с последующим ростом выше 1.44 к итерации 2300.

Эксперимент 2: Медицинский сырой текст

Обучение на 10K аннотациях из PubMed со скоростью обучения LR=5e-5 в течение 3 эпох:

BALLAST: MedQA 0.528 (-0.017)
LoRA-Match: MedQA 0.546 (+0.001)
LoRA-Std: MedQA 0.465 (-0.080)

Автор отмечает ошибку новичка: обучение на сырых аннотациях PubMed как предсказание следующего токена не помогает с MedQA, которая тестирует клиническое мышление через сценарии с множественным выбором.

Эксперимент 3: Медицинские вопросы-ответы с инструкциями

Исправленный формат данных с использованием 10K вопросов MedMCQA со скоростью обучения LR=1e-5 в течение 3 эпох. Формат: "Вопрос: ... A) X B) Y C) Z D) W Ответ: B"

BALLAST: MedQA 0.538 (-0.007)

Сводка тестирования скорости обучения

LR=1e-4 на Python: Превышение, потери разошлись к итерации 2300
LR=5e-5 на Python: Без изменений, незначительное ухудшение на тестах
LR=5e-5 на медицинских данных (сырой текст): Без изменений, незначительное ухудшение на MedQA
LR=1e-5 на медицинских данных (вопросы-ответы с инструкциями): Без изменений, незначительное ухудшение на MedQA

Ключевые выводы

Обучение только значений γ в LayerNorm не улучшает производительность ни на одном из протестированных тестов — ни на Python, ни на медицинских вопросах-ответах, ни при любой скорости обучения. Автор приходит к выводу, что трансформеры уже динамически направляют информацию через механизм внимания, поэтому нет смысла пытаться использовать LayerNorm в качестве дополнительного слоя для управления направленностью связей. В эксперименте использовалось всего 196K обучаемых параметров (0.005% модели) по сравнению с 11.5M параметрами LoRA в Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Claude.ai испытывает повышенное количество ошибок и проблемы со входом в систему

Claude.ai сообщает о повышенном количестве ошибок, влияющих на платформу, включая проблемы со входом, в частности для Claude Code. Инцидент был официально опубликован 11 марта 2026 года в 17:19:35 по UTC.

11 мар. 2026 г., 20:45 UTC

OpenClawRadar

Новости

Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent

Продуктовый агент кредитного риска на базе Claude на Snowflake Cortex Agent нуждается в регрессионном тестировании. Сейчас команда вручную сравнивает результаты с BI-запросами, стремясь к автоматизации оценки изменений навыков.

20 июн. 2026 г., 12:16 UTC

OpenClawRadar

Новости

OpenAI Codex OAuth возвращает ошибки 429 с 16 марта, несмотря на полную квоту.

OpenAI Codex OAuth постоянно возвращает ошибки 429 "вы превысили текущую квоту" с 16 марта, даже когда дашборды показывают 100% доступной квоты. Пользователи сообщают, что проблема сохраняется, несмотря на повторную аутентификацию, отзыв токенов и полную переконфигурацию.

1 апр. 2026 г., 02:45 UTC

OpenClawRadar

Новости

Тестирование OpenClaw на UmbrelOS: Что нужно знать

Интеграция OpenClaw с UmbrelOS находится на стадии изучения, что может предложить новую среду для усовершенствованных инструментов кодирования с использованием ИИ.

20 апр. 2026 г., 17:38 UTC

OpenClawRadar