RTX 5090でのAutoResearchの最適化:失敗した点と成功した点

初期の問題と動作するパス
RTX 5090/BlackwellシステムでAutoResearchを実行するための初期セットアップは「深刻に破損して」おり、極めて低いパフォーマンスしか発揮しませんでした。コードは技術的には動作しているにもかかわらず、1秒あたりわずか数千トークンで、実質的に役に立たないMFU(Model FLOPs Utilization)でした。
動作する設定パスには以下が含まれました:
- このセットアップで破損している完全モデルコンパイルパスを避ける
- 実際に役立つ融合オプティマイザコンパイルの改善を維持する
- 安定したSDPA/CuDNNアテンションパスを使用する
- 総バッチサイズと時間予算を推測ではなく経験的に調整する
- ベンチマーク/抽出/戦略立案/再実行ループを自動化する
失敗したこと
いくつかの失敗モードは誤解を招くものでした:
- 技術的には正しいが壊滅的に遅いパス
- 5090のコンテキストで分母が修正されるまで誤解を招くMFUの解釈
- 改善するように見えたが実際には状況を大幅に悪化させた高いデバイスごとのバッチ設定
- ロッククリーンアップ/完了フック/ディスパッチ順序に関する自動化バグ
開発者が指摘したように:「実行中に見えるが愚かなことをしている状態を得る方法はいくつかあった。」
役立ったこと
実際の改善は以下からもたらされました:
- 融合オプティマイザコンパイルパスを再度有効化する
- 元の大きな設定から総バッチサイズを削減する
- 2**17がより良い総バッチ領域であることを検証する
- 安定したバッチ体制が見つかったら時間予算を増やす
- 自動化をベンチマークシステムの一部として扱い、後付けではないと考える
パフォーマンスの進展
有用な実行の進展は明確な改善を示しました:
- ベースラインの健全な実行:val_bpb: 1.165452, mfu: 40.49%
- 融合オプティマイザコンパイルの改善:val_bpb: 1.155400, mfu: 42.88%
- TOTAL_BATCH_SIZE = 2**18:val_bpb: 1.108381, mfu: 43.18%
- TOTAL_BATCH_SIZE = 2**17の検証:val_bpb: 1.089424, mfu: 43.03%
- 現在の最良の自動ループ結果:TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, LR multiplier = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959
現在の最良設定
これまでに見つかった最良の結果:
- TOTAL_BATCH_SIZE = 2**17
- TIME_BUDGET = 1200
- LR multiplier = 1.0
この組み合わせは、より大きなバッチのバリエーション、より小さい2**16バリエーション、低いLRのテスト、短いトレーニング予算を上回りました。
重要なポイント
主な教訓は、勝利した設定が「すべてを最大化する」セットアップではなかったことです。より良いパスには、安定したバッチ体制、より長いトレーニング期間、自動化とバックエンドのミスの注意深い排除が含まれていました。
開発者は強調しました:もしBlackwell/5090トレーニングに取り組んでいて奇妙な動作を目にしているなら、「それはあなたの想像ではないかもしれません。一部のパスは最初に見えるよりもはるかに悪いのです。」この演習の有用な部分は、安定した、自動化可能な、再現可能な、実際の追跡実験を構築するのに十分なパスを見つけることでした。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

永続的なOpenClawエージェントコンテキストのための3層メモリアーキテクチャ
開発者は、エージェントがコンテキストなしで各セッションを開始するのを防ぐために、OpenClawのインフラ上に3層のメモリシステムを構築しました。このアーキテクチャには、毎ターン注入されるL1ワークスペースファイル、L2セマンティックメモリ検索、およびオンデマンドで開かれるL3参照ドキュメントが含まれています。

OpenClaw 101:新規ユーザーのための究極のセットアップガイド
なし

オープンクローにおけるAIエージェント能力の最大化
OpenClawのAIは、適切なモデルを選択し、特定のシステムコンテキストを提供することで最適化できます。Qwenモデルはツール使用に優れており、自律的なワークフローに不可欠です。

ソロスタジオ向けClaudeスキル9選:実務で使える命令の積み重ね方
ある個人開発者が、動画制作、分析、SEO、財務モデリングなどのために9つのClaudeスキルを構築しました。重要なポイント:スキルはドキュメントではなく、経験豊富な同僚への指示として書くこと。スキルはタスクが重なると自動的にトリガーされ、スタックします。