Оптимизация AutoResearch на RTX 5090: Что не сработало и что дало результат

Первоначальные проблемы и рабочий путь
Первоначальная настройка для запуска AutoResearch на системе RTX 5090/Blackwell была "сильно сломана" с крайне низкой производительностью — всего несколько тысяч токенов в секунду и практически бесполезным MFU (Model FLOPs Utilization), несмотря на технически работающий код.
Рабочий путь конфигурации включал:
- Избегание сломанного пути компиляции полной модели в этой настройке
- Сохранение полезных улучшений компиляции оптимизатора слияния там, где они действительно помогали
- Использование стабильного пути внимания SDPA/CuDNN
- Эмпирическую настройку общего размера батча и временного бюджета вместо догадок
- Автоматизацию цикла бенчмарк/извлечение/стратегия/повторный запуск
Что не сработало
Несколько режимов отказа были обманчивыми:
- Путь, который был технически правильным, но катастрофически медленным
- Вводящая в заблуждение интерпретация MFU до тех пор, пока знаменатель не был исправлен для контекста 5090
- Более высокие настройки размера батча на устройство, которые казались полезными, но на самом деле делали всё намного хуже
- Ошибки автоматизации вокруг очистки блокировок/хуков завершения/порядка диспетчеризации
Как отметил разработчик: "Было несколько способов получить запуск, который выглядел живым, но делал что-то глупое."
Что помогло
Реальные улучшения пришли от:
- Повторного включения пути компиляции оптимизатора слияния
- Уменьшения общего размера батча с исходной большей настройки
- Подтверждения 2**17 как лучшей области общего размера батча
- Увеличения временного бюджета после нахождения стабильного режима батча
- Рассмотрения автоматизации как части системы бенчмаркинга, а не второстепенной задачи
Прогресс производительности
Прогресс полезных запусков показал явные улучшения:
- Базовый здоровый запуск: val_bpb: 1.165452, mfu: 40.49%
- Улучшение компиляции оптимизатора слияния: val_bpb: 1.155400, mfu: 42.88%
- TOTAL_BATCH_SIZE = 2**18: val_bpb: 1.108381, mfu: 43.18%
- Подтверждение TOTAL_BATCH_SIZE = 2**17: val_bpb: 1.089424, mfu: 43.03%
- Лучший текущий результат автоцикла: TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, множитель LR = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959
Текущая лучшая конфигурация
Лучший найденный на данный момент результат:
- TOTAL_BATCH_SIZE = 2**17
- TIME_BUDGET = 1200
- Множитель LR = 1.0
Эта комбинация превзошла варианты с большим размером батча, меньший вариант 2**16, тест с более низким LR и более короткие бюджеты обучения.
Ключевые выводы
Главный урок заключался в том, что выигрышная конфигурация не была настройкой "максимум всего". Лучший путь включал стабильный режим батча, более длительный горизонт обучения и тщательное устранение ошибок автоматизации и бэкенда.
Разработчик подчеркнул, что если вы работаете над обучением на Blackwell/5090 и видите странное поведение, "возможно, это не ваше воображение. Некоторые пути просто намного хуже, чем кажутся на первый взгляд". Полезной частью этого упражнения было найти путь, который является стабильным, автоматизируемым, воспроизводимым и достаточно хорошим для построения реальных последующих экспериментов на его основе.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Файлы CLAUDE.md часто организованы для разработчиков, а не для ИИ-моделей — вот почему это важно
Файлы CLAUDE.md часто помещают жесткие правила в строку 47, после контекста и технологического стека. К тому времени, когда модель читает ограничения, она уже построила противоречивые предположения. Лучшая структура ставит жесткие правила на первое место.

Проблемы с установкой OpenClaw на Windows 11 для обычных пользователей
Любитель-энтузиаст описывает три конкретных препятствия при установке OpenClaw на мини-ПК за $200 под управлением Windows 11, включая политики выполнения PowerShell, блокировки Защитника Windows и отсутствие зависимостей, таких как Node.js и Git.

12 шаблонов OpenClaw SOUL.md и STYLE.md с практическими уроками
Разработчик создал 12 шаблонов агентов OpenClaw для распространенных сценариев использования, каждый из которых соответствует официальной спецификации из 4 разделов, и выделил ключевые уроки, включая необходимость файла STYLE.md для определения шаблонов общения и важность конкретных границ по сравнению с расплывчатыми чертами личности.

Проект OpenClaw: Операционная система для управления несколькими проектами (фреймворк)
Фреймворк, который изолирует проекты с помощью стандартизированных директорий, использует cron для автоматизации вместо агентов для предсказуемых задач и реализует обязательные протоколы резервного копирования для снижения расхода токенов и повышения согласованности выполнения.