カーペイシーの自動研究を16GPUでスケーリング:結果と手法

Autoresearchとは?
Autoresearchは、Andrej Karpathyのプロジェクトで、コーディングエージェントがニューラルネットワークのトレーニングスクリプトを自律的に改善します。エージェントはtrain.pyを編集し、GPUで5分間のトレーニング実験を実行し、検証損失をチェックし、ループします。役立つ変更は保持し、役立たない変更は破棄します。Karpathyの最初の一晩の実行では、エージェントは約20の改善を見つけ、nanochatリーダーボードでのGPT-2までの時間を11%削減しました。
Autoresearchの仕組み
このプロジェクトには3つのファイルがあります:
prepare.py- データをダウンロードし、トークナイザーをトレーニングし、データローダーと評価関数を提供します。読み取り専用です。エージェントはこれを変更できません。train.py- GPTモデル、オプティマイザー、トレーニングループです。エージェントが変更する唯一のファイルです。program.md- エージェントへの指示:何を変更できるか、結果をどのように評価するか、変更を保持するか破棄するかの基準。
制約は、固定の5分間のウォールクロックトレーニング予算です。エージェントの仕事は、そのウィンドウ内でval_bpb(検証ビット/バイト)を最小化することです。train.py内のすべては、コードがクラッシュせずに実行される限り、アーキテクチャ、ハイパーパラメータ、オプティマイザー設定、バッチサイズ、モデルの深さなど、自由に変更できます。
ボトルネック:1GPU、1実験
実験を逐次的に実行すると、エージェントはほとんどの時間を待機することになります。典型的なサイクルは以下の通りです:
- エージェントがtrain.pyを編集(約30秒)
- トレーニングを実行(約5分)
- エージェントが結果を読み取り、次の実験を計画(約30秒)
ステップ2が支配的です。ステップ2の間、エージェントはアイドル状態です。次の実験、または次の10の実験を準備することができます。逐次実行では、パラメータの組み合わせをテストするために、各テストごとにさらに5分待つ必要があります。
エージェントにクラウドGPUを提供
チームはSkyPilotを使用しました。これは、YAMLファイルからクラウドやKubernetesにジョブを起動するオープンソースツールです。コーディングエージェントに使用方法を教えるスキルが含まれています。エージェントはスキルを読み取り、手動のクラウド設定なしで、GPUクラスターを独自に起動および管理します。
各実験は、GPUタイプを指定し、依存関係をインストールし、train.pyを実行し、メトリクスをstdoutに出力する短いYAML(experiment.yaml)で定義されます。エージェントはsky logsで結果をチェックします。
結果:約910実験、約8時間、16GPU
Claude CodeはSkyPilotスキルを使用して、16個のGPUにわたるGPU実験を起動および管理しました。8時間以上にわたり、約910件の実験を提出し、val_bpbを1.003から0.974に改善しました。これはベースラインから2.87%の向上です。
並列処理がエージェントの研究戦略をどのように変えたか
1GPUでは、エージェントは貪欲な山登り法を行います。一つのことを試し、チェックし、繰り返します。16GPUでは、10〜13実験/ウェーブの階乗グリッドを実行し、逐次探索では見逃されるパラメータ間の相互作用効果を捉えました。
例えば、エージェントは単一のウェーブで6つのモデル幅をテストし、トレンドを即座に把握し、最適なものに集中しました。6ラウンドではなく1ラウンドで完了です。
エージェントはまた、複数のGPUタイプ(H100とH200)にアクセスできることを発見し、異種ハードウェア間の性能差を活用する戦略を開発しました。安価なH100でアイデアをスクリーニングし、勝者をH200に昇格させて検証します。
性能比較
16GPUでは、並列エージェントは、シミュレートされた逐次ベースライン(約72時間)よりも9倍速く(約8時間)、同じ最高の検証損失に到達しました。
実験フェーズ
- フェーズ1:ハイパーパラメータスイープ(約最初の200実験)
- フェーズ2:アーキテクチャ発見(約実験200-420)
- フェーズ3:より広いモデルの微調整(約実験420-560)
- フェーズ4:オプティマイザーチューニング(約実験560-700)
- フェーズ5:収穫逓減(約実験700-910)
エージェントは、モデル幅のスケーリングが、単一のハイパーパラメータよりも重要であることを発見しました。
📖 Read the full source: HN AI Agents
👀 See Also

内部ツールへの安全なリモートアクセスのためのMCPゲートウェイ
オープンソースのMCPゲートウェイは、複数のMCPツールサーバーを単一の接続に集約し、パブリックエンドポイントを公開することなくClaude Desktop経由で安全にアクセスできるようにします。OpenZiti/zrokを利用したゼロトラストネットワーキングを採用し、共有トークンを用いた1つの設定エントリのみで構成可能です。

ai-codex: コードベースを事前インデックス化してClaudeトークンを節約
ai-codexは、コードベースのコンパクトなマークダウンインデックスを生成するツールで、Claude Codeが通常の会話で消費する30-50Kトークンの初期探索フェーズをスキップできるようにします。ルート、ページ、ライブラリ、スキーマ、コンポーネントをカバーする5つのファイルを作成します。

LM Studio 0.4.0 ヘッドレスCLIでGoogle Gemma 4 26B-A4Bをローカルで実行する
LM Studio 0.4.0は、ヘッドレスなローカルモデル推論のためにllmsterとlms CLIを導入します。この記事では、GoogleのGemma 4 26B-A4B MoEモデルをMacBook Pro M4 Proにセットアップし、48GBの統合メモリで51トークン/秒を達成する方法を詳しく説明しています。
Voker、インテント/訂正/解決プリミティブを備えたエージェント分析プラットフォームを開始
YC S24スタートアップVokerが、軽量SDKを備えたエージェント分析プラットフォームを発表。ユーザーの意図、修正、解決を自動注釈し、LLMに依存せずにセルフサービスダッシュボードを提供します。