RTX 5090 AutoResearch最適化: 失敗と成功の設定

初期の問題と動作するパス

RTX 5090/BlackwellシステムでAutoResearchを実行するための初期セットアップは「深刻に破損して」おり、極めて低いパフォーマンスしか発揮しませんでした。コードは技術的には動作しているにもかかわらず、1秒あたりわずか数千トークンで、実質的に役に立たないMFU（Model FLOPs Utilization）でした。

動作する設定パスには以下が含まれました：

このセットアップで破損している完全モデルコンパイルパスを避ける
実際に役立つ融合オプティマイザコンパイルの改善を維持する
安定したSDPA/CuDNNアテンションパスを使用する
総バッチサイズと時間予算を推測ではなく経験的に調整する
ベンチマーク/抽出/戦略立案/再実行ループを自動化する

失敗したこと

いくつかの失敗モードは誤解を招くものでした：

技術的には正しいが壊滅的に遅いパス
5090のコンテキストで分母が修正されるまで誤解を招くMFUの解釈
改善するように見えたが実際には状況を大幅に悪化させた高いデバイスごとのバッチ設定
ロッククリーンアップ/完了フック/ディスパッチ順序に関する自動化バグ

開発者が指摘したように：「実行中に見えるが愚かなことをしている状態を得る方法はいくつかあった。」

役立ったこと

実際の改善は以下からもたらされました：

融合オプティマイザコンパイルパスを再度有効化する
元の大きな設定から総バッチサイズを削減する
2**17がより良い総バッチ領域であることを検証する
安定したバッチ体制が見つかったら時間予算を増やす
自動化をベンチマークシステムの一部として扱い、後付けではないと考える

パフォーマンスの進展

有用な実行の進展は明確な改善を示しました：

ベースラインの健全な実行：val_bpb: 1.165452, mfu: 40.49%
融合オプティマイザコンパイルの改善：val_bpb: 1.155400, mfu: 42.88%
TOTAL_BATCH_SIZE = 2**18：val_bpb: 1.108381, mfu: 43.18%
TOTAL_BATCH_SIZE = 2**17の検証：val_bpb: 1.089424, mfu: 43.03%
現在の最良の自動ループ結果：TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, LR multiplier = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959

現在の最良設定

これまでに見つかった最良の結果：

TOTAL_BATCH_SIZE = 2**17
TIME_BUDGET = 1200
LR multiplier = 1.0

この組み合わせは、より大きなバッチのバリエーション、より小さい2**16バリエーション、低いLRのテスト、短いトレーニング予算を上回りました。

重要なポイント

主な教訓は、勝利した設定が「すべてを最大化する」セットアップではなかったことです。より良いパスには、安定したバッチ体制、より長いトレーニング期間、自動化とバックエンドのミスの注意深い排除が含まれていました。

開発者は強調しました：もしBlackwell/5090トレーニングに取り組んでいて奇妙な動作を目にしているなら、「それはあなたの想像ではないかもしれません。一部のパスは最初に見えるよりもはるかに悪いのです。」この演習の有用な部分は、安定した、自動化可能な、再現可能な、実際の追跡実験を構築するのに十分なパスを見つけることでした。

📖 完全なソースを読む： r/LocalLLaMA