SkillOpt:AIエージェントの訓練可能パラメータとしてマークダウンスキルファイルを最適化

SkillOptは、マークダウンスキルファイルを訓練可能なパラメータとして扱う新しい最適化フレームワークです。多くのエージェント開発者がすでに行っているアドホックなスキル編集に、適切な最適化手法を適用します。論文(arxiv.org/pdf/2605.23904)では、フロンティアモデルがマークダウンスキルファイルへの制限付き編集(追加/削除/置換)を提案し、各編集をホールドアウト検証セットで評価するプロセスを形式化しています。厳密な改善のみが承認され、同点は却下、却下された編集は以降のラウンドで負のシグナルとなります。
主な発見
- 収束: 最適なスキルは、多数の提案の中から1〜4回の承認で収束します。ステップごとの編集予算は4〜8が最適で、上限を撤廃するとパフォーマンスが崩壊します。
- スキルサイズ: 最終的なスキルの中央値は約920トークンです。
- モデル転送: Codexで最適化したスキルをClaude Codeに変更なしで転送し、SpreadsheetBenchで+59.7を達成。GPT 4.1 Nanoも最適化スキルでフロンティアモデルに匹敵するパフォーマンスを手続き型ベンチマークで示しました。
制限事項
検証ゲートには明確な正解を持つ自動評価装置が必要です。コードやスプレッドシートでは機能しますが、自由回答形式の問題では破綻します。
対象読者
AIコーディングエージェントを開発し、手動での反復やアドホックなプロンプトエンジニアリングに頼らず、スキルファイルを体系的に最適化したい開発者向けです。
📖 詳細はソースをご覧ください: r/LocalLLaMA
👀 See Also

Tendr Skillは、トークン使用量を削減するために階層構造を持つCLIベースの長期記憶機能を追加します。
新しいOpenClawスキルは、長期的なメモリ操作において推論と実行を分離し、CLIツールを使用して構造的変更を確定的に処理します。ウィキリンクとファイル間の明示的な意味階層をサポートし、トークン消費を削減し、エラーの蓄積を防ぎます。

harshal-mcp-proxy がnpmに登場:1つのデーモンで12のMCPサーバー設定を置き換え
harshal-mcp-proxyが54kBのnpmパッケージとして利用可能になりました。グローバルインストールしてデーモンとして実行し、12個の個別MCPサーバー設定を6つのツールに置き換え、セッションあたり約2.7GBのRAMと約50Kトークンを節約できます。

Tilde.run: トランザクション型・バージョン管理型ファイルシステムを備えたエージェントサンドボックス
Tilde.runは、AIエージェント向けの隔離されたリバーシブルなサンドボックスを提供し、GitHub、S3、Googleドライブをマウントするバージョン管理されたファイルシステムと、デフォルトでのネットワーク分離を備えています。

Compass Chrome拡張機能がClaudeとChatGPTにナビゲーションツールを追加
開発者が、長い会話でのナビゲーション問題を解決するため、ClaudeとChatGPTのインターフェースにプロンプトミニマップ、固定スクロールヘッダー、セッションチェックリスト、プロンプトビルダーテンプレートを追加する無料のChrome拡張機能「Compass」を構築しました。