カーペイシーの自動研究を16GPUでスケーリング：結果と手法

✍️ OpenClawRadar📅 公開日: March 19, 2026🔗 Source

Autoresearchとは？

Autoresearchは、Andrej Karpathyのプロジェクトで、コーディングエージェントがニューラルネットワークのトレーニングスクリプトを自律的に改善します。エージェントはtrain.pyを編集し、GPUで5分間のトレーニング実験を実行し、検証損失をチェックし、ループします。役立つ変更は保持し、役立たない変更は破棄します。Karpathyの最初の一晩の実行では、エージェントは約20の改善を見つけ、nanochatリーダーボードでのGPT-2までの時間を11%削減しました。

Autoresearchの仕組み

このプロジェクトには3つのファイルがあります：

prepare.py - データをダウンロードし、トークナイザーをトレーニングし、データローダーと評価関数を提供します。読み取り専用です。エージェントはこれを変更できません。
train.py - GPTモデル、オプティマイザー、トレーニングループです。エージェントが変更する唯一のファイルです。
program.md - エージェントへの指示：何を変更できるか、結果をどのように評価するか、変更を保持するか破棄するかの基準。

制約は、固定の5分間のウォールクロックトレーニング予算です。エージェントの仕事は、そのウィンドウ内でval_bpb（検証ビット/バイト）を最小化することです。train.py内のすべては、コードがクラッシュせずに実行される限り、アーキテクチャ、ハイパーパラメータ、オプティマイザー設定、バッチサイズ、モデルの深さなど、自由に変更できます。

ボトルネック：1GPU、1実験

実験を逐次的に実行すると、エージェントはほとんどの時間を待機することになります。典型的なサイクルは以下の通りです：

エージェントがtrain.pyを編集（約30秒）
トレーニングを実行（約5分）
エージェントが結果を読み取り、次の実験を計画（約30秒）

ステップ2が支配的です。ステップ2の間、エージェントはアイドル状態です。次の実験、または次の10の実験を準備することができます。逐次実行では、パラメータの組み合わせをテストするために、各テストごとにさらに5分待つ必要があります。

エージェントにクラウドGPUを提供

チームはSkyPilotを使用しました。これは、YAMLファイルからクラウドやKubernetesにジョブを起動するオープンソースツールです。コーディングエージェントに使用方法を教えるスキルが含まれています。エージェントはスキルを読み取り、手動のクラウド設定なしで、GPUクラスターを独自に起動および管理します。

各実験は、GPUタイプを指定し、依存関係をインストールし、train.pyを実行し、メトリクスをstdoutに出力する短いYAML（experiment.yaml）で定義されます。エージェントはsky logsで結果をチェックします。

結果：約910実験、約8時間、16GPU

Claude CodeはSkyPilotスキルを使用して、16個のGPUにわたるGPU実験を起動および管理しました。8時間以上にわたり、約910件の実験を提出し、val_bpbを1.003から0.974に改善しました。これはベースラインから2.87%の向上です。

並列処理がエージェントの研究戦略をどのように変えたか

1GPUでは、エージェントは貪欲な山登り法を行います。一つのことを試し、チェックし、繰り返します。16GPUでは、10〜13実験/ウェーブの階乗グリッドを実行し、逐次探索では見逃されるパラメータ間の相互作用効果を捉えました。

例えば、エージェントは単一のウェーブで6つのモデル幅をテストし、トレンドを即座に把握し、最適なものに集中しました。6ラウンドではなく1ラウンドで完了です。

エージェントはまた、複数のGPUタイプ（H100とH200）にアクセスできることを発見し、異種ハードウェア間の性能差を活用する戦略を開発しました。安価なH100でアイデアをスクリーニングし、勝者をH200に昇格させて検証します。

性能比較

16GPUでは、並列エージェントは、シミュレートされた逐次ベースライン（約72時間）よりも9倍速く（約8時間）、同じ最高の検証損失に到達しました。

実験フェーズ

フェーズ1：ハイパーパラメータスイープ（約最初の200実験）
フェーズ2：アーキテクチャ発見（約実験200-420）
フェーズ3：より広いモデルの微調整（約実験420-560）
フェーズ4：オプティマイザーチューニング（約実験560-700）
フェーズ5：収穫逓減（約実験700-910）

エージェントは、モデル幅のスケーリングが、単一のハイパーパラメータよりも重要であることを発見しました。

📖 Read the full source: HN AI Agents

👀 See Also

Tools

Claudeコード用789のダウンロード可能スキルの無料ライブラリ

clskills.inは、Claude Code向けに789個のダウンロード可能な.mdスキルファイルを提供する検索可能なハブです。エンタープライズプラットフォーム、プログラミング言語、DevOpsツールなど60以上のカテゴリに分類されており、各ダウンロードにはREADMEと自動インストールプロンプトが含まれます。

Mar 23, 2026, 08:45 PM UTC

OpenClawRadar

Tools

開発者が、Claude AIが50回を超えるルールを無視する問題に対する解決策を共有

Claude Code、Cursor、Codexで共有ルールセットを使用している開発者が特定の制限に直面しました。ルール数が約50を超えると、フロントエンド中心のタスク中にClaudeがルールを黙って無視し始めたのです。この問題は、関連性の低いコンテキストが多すぎてシステムが圧倒されることに起因しているようでした。

Feb 28, 2026, 02:45 PM UTC

OpenClawRadar

Tools

オープンソースのマルチエージェントフレームワーク、Claude Code流出から抽出

開発者がClaude Codeの流出したソースコードからマルチエージェントオーケストレーションシステムを抽出し、モデルに依存しないMITライセンスのオープンソースフレームワークとして再構築しました。この8,000行のTypeScriptフレームワークには、タスクスケジューリング、エージェント間メッセージング、組み込みツールが含まれています。

Apr 1, 2026, 12:45 PM UTC

OpenClawRadar

Tools

Claude-context-lintツールは、Claude Codeプロジェクトにおけるトークンオーバーヘッドを監査します。

claude-context-lintという新しいツールは、Claude Codeプロジェクトをスキャンし、ユーザー入力前にCLAUDE.mdファイル、スキル、MCPサーバー、システムプロンプトによって消費されるコンテキストウィンドウの量を表示します。このツールはトークン使用量を削減するための具体的な推奨事項を提供します。

Apr 14, 2026, 04:45 AM UTC

OpenClawRadar