Unsloth и NVIDIA сотрудничают для ускорения обучения LLM примерно на 25%

Сотрудничество Unsloth с NVIDIA даёт ~25% ускорение обучения (без потери точности) за счёт реализации трёх ключевых оптимизаций: кэширование метаданных упакованных последовательностей, двойная буферизация асинхронного градиентного контрольного чекпоинта и улучшения маршрутизации MoE. Они автоматически включаются на ноутбуках RTX, дата-центровых GPU и DGX Spark с обновлением Unsloth.
Кэширование метаданных упакованных последовательностей
Упакованное обучение объединяет короткие примеры, чтобы избежать потерь на дополнение. Каждый слой трансформера ранее перестраивал те же метаданные последовательности (длины, cu_seqlens, max_seqlen, структуру маски) с нуля, вызывая накладные расходы на синхронизацию устройство-хост. Кэшируя метаданные один раз на пакет и повторно используя их на всех слоях, Unsloth сокращает повторяющуюся работу.
Бенчмарки на Qwen3-14B QLoRA SFT показывают:
- Прямой проход: +43,3% быстрее
- Обратный проход: +5,8% быстрее
- В целом на пакет: +14,3% быстрее
Микробенчмарк на GPU NVIDIA Blackwell показал, что доминирующая стоимость построения маски составляет ~13,7 мс на упакованный пакет. Для Llama-3.2-1B (16 слоёв) это экономит ~199 мс на шаг (11,5% меньше); для Qwen3-0.6B (28 слоёв) ~319 мс (14,8% меньше).
Двойная буферизация асинхронного градиентного контрольного чекпоинта
Асинхронный градиентный контрольный чекпоинт перекрывает пересчёт с вычислениями. Это даёт 8% ускорение без ущерба для точности.
Маршрутизация MoE: argsort + bincount
Для моделей MoE использование torch.argsort и torch.bincount вместо пользовательских ядер ускоряет обучение gpt-oss на 15%.
Все оптимизации автоматически включаются на поддерживаемом оборудовании. Обновите Unsloth, чтобы их получить.
📖 Читать полный источник: HN LLM Tools
👀 Смотрите также

ClaudyBro: Нативный терминал macOS для рабочих процессов кода Claude
ClaudyBro — это нативное приложение для терминала macOS размером 3,5 МБ, созданное специально для пользователей Claude Code. Оно включает вставку изображений, инспектор процессов, очистку «осиротевших» процессов и интеллектуальное управление MCP. В простое потребляет 68 МБ оперативной памяти, а при работе Claude — 82 МБ.

Много-провайдерская цепочка отказов LLM с поддержкой Ollama в производственной AI IDE
Resonant Genesis AI IDE интегрирует поддержку локальных LLM как полноценного провайдера наряду с Groq, OpenAI, Anthropic и Gemini в более чем 30 микросервисах, используя общую библиотеку UnifiedLLMClient с автоматической цепочкой отказов.

Библиотека промптов для ИИ-агентов с открытым исходным кодом достигла 100 звёзд на GitHub
Общедоступный репозиторий под названием ai-setup предоставляет общие системные промпты, правила Cursor, конфигурации Claude и настройки рабочих процессов для локальных моделей AI-агентов. Проект имеет 100 звёзд на GitHub и 90 принятых PR.

Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.
Разработчик опубликовал в открытом доступе реализации локальных серверов для Whisper STT и Coqui TTS, которые обеспечивают задержку ~0,2 секунды при преобразовании речи в текст и ~250 мс при преобразовании текста в речь, что позволяет создавать разговорные ИИ-агенты без зависимости от облачных сервисов.