アンダースタディ:デモンストレーションでタスクを学習する教育可能なデスクトップエージェント

Understudyの機能
Understudyは、人間の同僚のようにコンピューターを操作する学習可能なデスクトップエージェントです。GUI、ブラウザ、シェル、ファイルシステム、メッセージングツールを1つのローカルランタイムで扱います。中核となる革新は「デモンストレーションによる学習」です。ユーザーがタスクを一度実行すると、エージェントは画面ビデオと意味的イベントを記録し、意図(単なる座標ではなく)を抽出し、再利用可能なスキルに変換します。
現在の実装状況
システムは5つのレイヤーで設計されており、現在の実装状況は以下の通りです:
- レイヤー1(ソフトウェアをネイティブに操作):現在macOSで実装済み。13のツール+スクリーンショットグラウンディング+ネイティブ入力を使用して、あらゆるmacOSデスクトップアプリを操作します。
- レイヤー2(デモンストレーションから学習):実装済みで現在使用可能。ユーザーがタスクを一度示すと、エージェントは意図を抽出し、検証し、学習します。
- レイヤー3(結晶化されたメモリ):部分的に実装済み。エージェントは日常使用から経験を蓄積し、成功したパスを強化します。
- レイヤー4(ルート最適化):部分的に実装済み。より高速な実行ルートを自動的に発見し、アップグレードします。
- レイヤー5(積極的自律性):長期的な方向性として検討中。ユーザーを妨げずに自らのワークスペースで気づき、行動します。
技術的能力
Understudyは、すべての実行ルートを1つのエージェントループ、1つのセッション、1つのポリシーパイプラインで統合するデスクトップランタイムです:
- GUI:13のツール+スクリーンショットグラウンディング+ネイティブ入力により、あらゆるmacOSデスクトップアプリを操作
- ブラウザ:Playwright管理+Chrome拡張機能リレーにより、ログインセッションを含むあらゆるウェブサイトを操作
- シェル:CLIツール、スクリプト、ファイルシステムに完全なローカルアクセスを提供するbashツール
- ウェブ:リアルタイム情報検索のためのweb_search+web_fetch
- メモリ:永続的なコンテキストと設定のためのセッション横断的な意味的メモリ
- メッセージング:8チャンネル対応
実際の動作
デモビデオでは、作成者がUnderstudyに次のことを教えています:Google画像検索→写真をダウンロード→Pixelmator Proで背景を削除→エクスポート→Telegramで送信。その後、同じことをイーロン・マスクに対して実行するよう指示します。再生は脆弱なマクロではありません。公開されたスキルは、意図のステップ、ルートオプション、およびフォールバックとしてのGUIヒントのみを保存します。利用可能な場合は、すべてのGUIステップを繰り返す代わりに、より高速なルートを優先できます。
インストールとセットアップ
現在のプラットフォーム:macOSのみ。インストールはnpm経由で行います:
npm install -g @understudy-ai/understudy
understudy wizard
ショーケースデモから公開されたスキルアーティファクトは、examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.mdで確認できます。
対象ユーザー
複数のデスクトップアプリケーションをまたいで作業し、カスタム統合やワークフロービルダーを構築せずに反復タスクを自動化したい開発者向けです。
📖 Read the full source: HN AI Agents
👀 See Also

インタラクティブなマインドマップがClaudeツールエコシステムを可視化
開発者がD3.jsを使用してインタラクティブなHTMLマインドマップを作成し、ClaudeのChat、Cowork、Codeツール間の機能、プラットフォームの利用可否、価格の違い、コネクタの互換性を追跡できるようにしました。

HTMLアーティファクトは技術文書向けにGoogleドキュメントを代替するが、コメント機能が不足している
Claudeが生成するHTMLアーティファクトが、スパイク読み取りやアーキテクチャノートなどの長文の技術コンテンツでGoogleドキュメントに取って代わりつつあるが、サンドボックス化されたiframeの性質上、インラインコメントやレビュー機能が利用できない。

ユーザーが報告するOpenClawとClawDBotの評価は賛否両論:知っておくべきポイント
OpenClawとClawDBotは、コード自動化の有望なAIツールですが、一部のユーザーには期待外れの結果となっています。本記事では、これらのプラットフォームに関するユーザー体験と価値についてのRedditディスカッションから得られた重要な洞察を探ります。

9つのビルディングブロック:18事業にわたってクロード・コードを永続的なOSとして実行する方法
1人の開発者が18個のClaude Codeインスタンスを共有OSとして運用し、選択的同期、状態のMCPサーバーへの移行、レシートベースの検証、ルールの自動読み込みを実装。アーキテクチャの詳細を解説。