NVIDIA и Unsloth: ускорение обучения LLM на 25%

Сотрудничество Unsloth с NVIDIA даёт ~25% ускорение обучения (без потери точности) за счёт реализации трёх ключевых оптимизаций: кэширование метаданных упакованных последовательностей, двойная буферизация асинхронного градиентного контрольного чекпоинта и улучшения маршрутизации MoE. Они автоматически включаются на ноутбуках RTX, дата-центровых GPU и DGX Spark с обновлением Unsloth.

Кэширование метаданных упакованных последовательностей

Упакованное обучение объединяет короткие примеры, чтобы избежать потерь на дополнение. Каждый слой трансформера ранее перестраивал те же метаданные последовательности (длины, cu_seqlens, max_seqlen, структуру маски) с нуля, вызывая накладные расходы на синхронизацию устройство-хост. Кэшируя метаданные один раз на пакет и повторно используя их на всех слоях, Unsloth сокращает повторяющуюся работу.

Бенчмарки на Qwen3-14B QLoRA SFT показывают:

Прямой проход: +43,3% быстрее
Обратный проход: +5,8% быстрее
В целом на пакет: +14,3% быстрее

Микробенчмарк на GPU NVIDIA Blackwell показал, что доминирующая стоимость построения маски составляет ~13,7 мс на упакованный пакет. Для Llama-3.2-1B (16 слоёв) это экономит ~199 мс на шаг (11,5% меньше); для Qwen3-0.6B (28 слоёв) ~319 мс (14,8% меньше).

Двойная буферизация асинхронного градиентного контрольного чекпоинта

Асинхронный градиентный контрольный чекпоинт перекрывает пересчёт с вычислениями. Это даёт 8% ускорение без ущерба для точности.

Маршрутизация MoE: argsort + bincount

Для моделей MoE использование torch.argsort и torch.bincount вместо пользовательских ядер ускоряет обучение gpt-oss на 15%.

Все оптимизации автоматически включаются на поддерживаемом оборудовании. Обновите Unsloth, чтобы их получить.

📖 Читать полный источник: HN LLM Tools

Unsloth и NVIDIA сотрудничают для ускорения обучения LLM примерно на 25%

Кэширование метаданных упакованных последовательностей

Двойная буферизация асинхронного градиентного контрольного чекпоинта

Маршрутизация MoE: argsort + bincount

👀 Смотрите также

ClaudyBro: Нативный терминал macOS для рабочих процессов кода Claude

Много-провайдерская цепочка отказов LLM с поддержкой Ollama в производственной AI IDE

Библиотека промптов для ИИ-агентов с открытым исходным кодом достигла 100 звёзд на GitHub

Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.