Claude Codeを使用してAI研究実験を12時間自動化する

Claude Codeによる自動化AI研究
開発者がClaude Codeを使用して12時間連続でAI研究実験を自動化した経緯を記録しました。このプロジェクトは、自己蒸留を用いてコンテキストを重みに移行するリアルタイム継続学習フレームワーク「CLaaS」に焦点を当てています。
実験設定
目標は、自己蒸留トレーニング実行を調整し、簡潔な応答や絵文字不使用など、様々な選好検証器に対するモデルの適合度を最大化することでした。実験はRTX 5090で一晩中ローカル実行されました。
システムアーキテクチャ
リポジトリは高度に設定可能な設計になっています:
- Hydra設定管理を使用してCLI経由で全ての調整可能パラメータを公開
- 各トレーニングステップと評価実行のためのHTMLダッシュボード
- ダッシュボードを通じて指標、入力、出力を可視化
- Claude Codeはcurlリクエストでダッシュボードを照会し進捗を確認可能
実験管理
ワークフローは特定のルールを持つローカルのEXPERIMENTS.mdファイルで制御されました:
- 各実験では最大1つの変数変更または1つのコード変更のみ許可
- 実験間では、モデルは結果に基づいて前回の変更を採用または元に戻す必要あり
- 新しいコード変更は後続の調整のために設定経由で公開必須
- モデルは進行状況、仮説、結果を実行記録としてファイルに記録
- 選好適合度最大化を目的とした「ラルフ・ウィガム・ループ」を採用
結果
12時間にわたり、システムは9回の実験を実行:
- 最初の実行でモデル崩壊バグを発見・修正
- バッチあたりの勾配ステップ数を4に調整
- 学習率を3e-5に調整
- 適合度が0.000から1.000に改善
- 実験間のトレーニング実行待機時間が大半のため、トークン使用量は驚くほど低水準
同じタスクはCodexでも2時間実行され(プレーンなプロンプト使用)、独立して同じハイパーパラメータに収束しました。
プロジェクトリポジトリ:https://github.com/kfallah/CLaaS
📖 全文を読む: r/ClaudeAI
👀 See Also

開発者がClaude Coworkで完全なSaaS製品を構築:認証、決済、埋め込みウィジェット付きMLBスコアボードアプリ
ある開発者が、Claude Coworkセッションを完全に使用して、Reactフロントエンド、Express/Vercel API、Supabase認証、Stripe決済、および埋め込み可能なウィジェットを備えたパーソナライズされたMLBスコアボードアプリ「ScorePorch」を構築しました。このプロジェクトには、ライブスコア、チームテーマのダッシュボード、および23KBの依存関係のないウィジェットが含まれています。

ユーザーワークフロー:計画にはClaude.aiを、実装にはClaude Codeを使用
ある開発者が、詳細な計画とアーキテクチャの議論にはClaude.aiを、実装にはClaude Codeを使用していると説明していますが、2つのツール間で共有状態がないため、手動でのファイル転送が必要だと指摘しています。

開発者が6つのClaude AIエージェントを構築し、15のサイドプロジェクトを管理
フルタイムのエンジニアとして働く開発者が、6つの専門化されたClaudeエージェントを作成し、カスタムプラットフォームなしでClaude Code、マークダウンファイル、git worktreeを使用して15のサイドプロジェクトの日常業務を処理している。

Claude Codeで20エージェントパイプラインを構築:AIより構造を重視して
ある開発者がClaude Codeを使用して、Gmail、カレンダー、Notion、LinkedIn、ウェブスクレイパー、ローカルAPIにまたがる日々のワークフローを自動化する20エージェントのパイプラインを構築しました。重要な洞察は、信頼性はより良いプロンプトではなく、AIの周囲に決定論的な構造を追加することから生まれたということです。