Оптимизация AutoResearch на RTX 5090: Что не сработало и что дало результат

✍️ OpenClawRadar📅 Опубликовано: 20 марта 2026 г.🔗 Source
Оптимизация AutoResearch на RTX 5090: Что не сработало и что дало результат
Ad

Первоначальные проблемы и рабочий путь

Первоначальная настройка для запуска AutoResearch на системе RTX 5090/Blackwell была "сильно сломана" с крайне низкой производительностью — всего несколько тысяч токенов в секунду и практически бесполезным MFU (Model FLOPs Utilization), несмотря на технически работающий код.

Рабочий путь конфигурации включал:

  • Избегание сломанного пути компиляции полной модели в этой настройке
  • Сохранение полезных улучшений компиляции оптимизатора слияния там, где они действительно помогали
  • Использование стабильного пути внимания SDPA/CuDNN
  • Эмпирическую настройку общего размера батча и временного бюджета вместо догадок
  • Автоматизацию цикла бенчмарк/извлечение/стратегия/повторный запуск

Что не сработало

Несколько режимов отказа были обманчивыми:

  • Путь, который был технически правильным, но катастрофически медленным
  • Вводящая в заблуждение интерпретация MFU до тех пор, пока знаменатель не был исправлен для контекста 5090
  • Более высокие настройки размера батча на устройство, которые казались полезными, но на самом деле делали всё намного хуже
  • Ошибки автоматизации вокруг очистки блокировок/хуков завершения/порядка диспетчеризации

Как отметил разработчик: "Было несколько способов получить запуск, который выглядел живым, но делал что-то глупое."

Что помогло

Реальные улучшения пришли от:

  • Повторного включения пути компиляции оптимизатора слияния
  • Уменьшения общего размера батча с исходной большей настройки
  • Подтверждения 2**17 как лучшей области общего размера батча
  • Увеличения временного бюджета после нахождения стабильного режима батча
  • Рассмотрения автоматизации как части системы бенчмаркинга, а не второстепенной задачи
Ad

Прогресс производительности

Прогресс полезных запусков показал явные улучшения:

  • Базовый здоровый запуск: val_bpb: 1.165452, mfu: 40.49%
  • Улучшение компиляции оптимизатора слияния: val_bpb: 1.155400, mfu: 42.88%
  • TOTAL_BATCH_SIZE = 2**18: val_bpb: 1.108381, mfu: 43.18%
  • Подтверждение TOTAL_BATCH_SIZE = 2**17: val_bpb: 1.089424, mfu: 43.03%
  • Лучший текущий результат автоцикла: TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, множитель LR = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959

Текущая лучшая конфигурация

Лучший найденный на данный момент результат:

  • TOTAL_BATCH_SIZE = 2**17
  • TIME_BUDGET = 1200
  • Множитель LR = 1.0

Эта комбинация превзошла варианты с большим размером батча, меньший вариант 2**16, тест с более низким LR и более короткие бюджеты обучения.

Ключевые выводы

Главный урок заключался в том, что выигрышная конфигурация не была настройкой "максимум всего". Лучший путь включал стабильный режим батча, более длительный горизонт обучения и тщательное устранение ошибок автоматизации и бэкенда.

Разработчик подчеркнул, что если вы работаете над обучением на Blackwell/5090 и видите странное поведение, "возможно, это не ваше воображение. Некоторые пути просто намного хуже, чем кажутся на первый взгляд". Полезной частью этого упражнения было найти путь, который является стабильным, автоматизируемым, воспроизводимым и достаточно хорошим для построения реальных последующих экспериментов на его основе.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Файлы CLAUDE.md часто организованы для разработчиков, а не для ИИ-моделей — вот почему это важно
Гайды

Файлы CLAUDE.md часто организованы для разработчиков, а не для ИИ-моделей — вот почему это важно

Файлы CLAUDE.md часто помещают жесткие правила в строку 47, после контекста и технологического стека. К тому времени, когда модель читает ограничения, она уже построила противоречивые предположения. Лучшая структура ставит жесткие правила на первое место.

OpenClawRadar
Проблемы с установкой OpenClaw на Windows 11 для обычных пользователей
Гайды

Проблемы с установкой OpenClaw на Windows 11 для обычных пользователей

Любитель-энтузиаст описывает три конкретных препятствия при установке OpenClaw на мини-ПК за $200 под управлением Windows 11, включая политики выполнения PowerShell, блокировки Защитника Windows и отсутствие зависимостей, таких как Node.js и Git.

OpenClawRadar
12 шаблонов OpenClaw SOUL.md и STYLE.md с практическими уроками
Гайды

12 шаблонов OpenClaw SOUL.md и STYLE.md с практическими уроками

Разработчик создал 12 шаблонов агентов OpenClaw для распространенных сценариев использования, каждый из которых соответствует официальной спецификации из 4 разделов, и выделил ключевые уроки, включая необходимость файла STYLE.md для определения шаблонов общения и важность конкретных границ по сравнению с расплывчатыми чертами личности.

OpenClawRadar
Проект OpenClaw: Операционная система для управления несколькими проектами (фреймворк)
Гайды

Проект OpenClaw: Операционная система для управления несколькими проектами (фреймворк)

Фреймворк, который изолирует проекты с помощью стандартизированных директорий, использует cron для автоматизации вместо агентов для предсказуемых задач и реализует обязательные протоколы резервного копирования для снижения расхода токенов и повышения согласованности выполнения.

OpenClawRadar