Оптимизация AutoResearch на RTX 5090: Что не сработало и что дало результат

✍️ OpenClawRadar📅 Опубликовано: 20 марта 2026 г.🔗 Source

Первоначальные проблемы и рабочий путь

Первоначальная настройка для запуска AutoResearch на системе RTX 5090/Blackwell была "сильно сломана" с крайне низкой производительностью — всего несколько тысяч токенов в секунду и практически бесполезным MFU (Model FLOPs Utilization), несмотря на технически работающий код.

Рабочий путь конфигурации включал:

Избегание сломанного пути компиляции полной модели в этой настройке
Сохранение полезных улучшений компиляции оптимизатора слияния там, где они действительно помогали
Использование стабильного пути внимания SDPA/CuDNN
Эмпирическую настройку общего размера батча и временного бюджета вместо догадок
Автоматизацию цикла бенчмарк/извлечение/стратегия/повторный запуск

Что не сработало

Несколько режимов отказа были обманчивыми:

Путь, который был технически правильным, но катастрофически медленным
Вводящая в заблуждение интерпретация MFU до тех пор, пока знаменатель не был исправлен для контекста 5090
Более высокие настройки размера батча на устройство, которые казались полезными, но на самом деле делали всё намного хуже
Ошибки автоматизации вокруг очистки блокировок/хуков завершения/порядка диспетчеризации

Как отметил разработчик: "Было несколько способов получить запуск, который выглядел живым, но делал что-то глупое."

Что помогло

Реальные улучшения пришли от:

Повторного включения пути компиляции оптимизатора слияния
Уменьшения общего размера батча с исходной большей настройки
Подтверждения 2**17 как лучшей области общего размера батча
Увеличения временного бюджета после нахождения стабильного режима батча
Рассмотрения автоматизации как части системы бенчмаркинга, а не второстепенной задачи

Прогресс производительности

Прогресс полезных запусков показал явные улучшения:

Базовый здоровый запуск: val_bpb: 1.165452, mfu: 40.49%
Улучшение компиляции оптимизатора слияния: val_bpb: 1.155400, mfu: 42.88%
TOTAL_BATCH_SIZE = 2**18: val_bpb: 1.108381, mfu: 43.18%
Подтверждение TOTAL_BATCH_SIZE = 2**17: val_bpb: 1.089424, mfu: 43.03%
Лучший текущий результат автоцикла: TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, множитель LR = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959

Текущая лучшая конфигурация

Лучший найденный на данный момент результат:

TOTAL_BATCH_SIZE = 2**17
TIME_BUDGET = 1200
Множитель LR = 1.0

Эта комбинация превзошла варианты с большим размером батча, меньший вариант 2**16, тест с более низким LR и более короткие бюджеты обучения.

Ключевые выводы

Главный урок заключался в том, что выигрышная конфигурация не была настройкой "максимум всего". Лучший путь включал стабильный режим батча, более длительный горизонт обучения и тщательное устранение ошибок автоматизации и бэкенда.

Разработчик подчеркнул, что если вы работаете над обучением на Blackwell/5090 и видите странное поведение, "возможно, это не ваше воображение. Некоторые пути просто намного хуже, чем кажутся на первый взгляд". Полезной частью этого упражнения было найти путь, который является стабильным, автоматизируемым, воспроизводимым и достаточно хорошим для построения реальных последующих экспериментов на его основе.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Гайды

Четыре способа переноса истории ChatGPT в память Claude

Claude теперь предлагает импорт памяти для данных ChatGPT, но есть четыре подхода с разными компромиссами: встроенный импорт для скорости, курируемая абстракция для контроля, полный экспорт для сохранения или гибридный метод, сочетающий все три.

16 мар. 2026 г., 01:45 UTC

OpenClawRadar

Рекомендации по настройке локальной LLM для OpenClaw

Гайды

Оценка RAG-чатбота: как прогон модели + исправление ретривера сократили затраты на 79% и повысили качество на 19%

Разработчик оценил RAG-бота для поддержки клиентов и обнаружил ошибки в настройке поиска, недостатки эвристических оценщиков и более дешевую модель, которая превзошла производственную. Качество улучшилось с 6,62 до 7,88, а стоимость снизилась с $0,002420 до $0,000509 за сессию.

15 мая 2026 г., 14:18 UTC

OpenClawRadar

Гайды

Запуск OmniCoder-9B локально с деталями конфигурации llama.cpp

Разработчик достиг среднего результата 96,7% на HumanEval с моделью OmniCoder-9B на среднем по мощности оборудовании, используя специфичные флаги llama.cpp, включая --reasoning-budget 0 для отключения цепочек рассуждений. Настройка использовала квантованную модель Q6_K, работающую на RTX 3080 с 10 ГБ видеопамяти.

14 мар. 2026 г., 17:45 UTC

OpenClawRadar

Первоначальные проблемы и рабочий путь

Что не сработало

Что помогло

Прогресс производительности

Текущая лучшая конфигурация

Ключевые выводы

👀 Смотрите также

Четыре способа переноса истории ChatGPT в память Claude

Рекомендации по настройке локальной LLM для OpenClaw

Оценка RAG-чатбота: как прогон модели + исправление ретривера сократили затраты на 79% и повысили качество на 19%

Запуск OmniCoder-9B локально с деталями конфигурации llama.cpp