언더스터디: 데모를 통해 작업을 학습하는 가르칠 수 있는 데스크톱 에이전트

언더스터디의 기능
언더스터디는 인간 동료처럼 컴퓨터를 운영하는 가르칠 수 있는 데스크톱 에이전트로, GUI, 브라우저, 쉘, 파일 시스템, 메시징 도구를 하나의 로컬 런타임에서 처리합니다. 핵심 혁신은 시연을 통한 학습입니다: 작업을 한 번 수행하면, 에이전트는 화면 비디오와 의미론적 이벤트를 기록하고, 의도(단순 좌표가 아님)를 추출하여 재사용 가능한 스킬로 변환합니다.
현재 구현 상태
시스템은 다섯 개의 레이어로 설계되었으며, 현재 구현 상태는 다음과 같습니다:
- 레이어 1 (네이티브 소프트웨어 운영): 현재 macOS에서 구현됨. 13개의 도구 + 스크린샷 기반 + 네이티브 입력을 사용하여 모든 macOS 데스크톱 앱을 운영합니다.
- 레이어 2 (시연으로부터 학습): 현재 구현되어 사용 가능. 사용자가 작업을 한 번 보여주면 에이전트가 의도를 추출하고 검증하며 학습합니다.
- 레이어 3 (결정화된 메모리): 부분적으로 구현됨. 에이전트가 일상 사용에서 경험을 축적하고 성공적인 경로를 강화합니다.
- 레이어 4 (경로 최적화): 부분적으로 구현됨. 더 빠른 실행 경로를 자동으로 발견하고 업그레이드합니다.
- 레이어 5 (능동적 자율성): 여전히 장기적인 방향입니다. 사용자를 방해하지 않고 자체 작업 공간에서 주목하고 행동합니다.
기술적 능력
언더스터디는 모든 실행 경로를 하나의 에이전트 루프, 하나의 세션, 하나의 정책 파이프라인에서 혼합하는 통합 데스크톱 런타임입니다:
- GUI: 모든 macOS 데스크톱 앱을 위한 13개의 도구 + 스크린샷 기반 + 네이티브 입력
- 브라우저: 로그인 세션이 있는 모든 웹사이트를 위한 Playwright 관리 + Chrome 확장 프로그램 릴레이
- 쉘: CLI 도구, 스크립트, 파일 시스템을 위한 전체 로컬 액세스를 제공하는 bash 도구
- 웹: 실시간 정보 검색을 위한 web_search + web_fetch
- 메모리: 지속적인 컨텍스트와 선호도를 위한 세션 간 의미론적 메모리
- 메시징: 8개 채널 지원
실제 작동 방식
데모 비디오에서, 제작자는 언더스터디에게 다음을 가르칩니다: Google 이미지 검색 → 사진 다운로드 → Pixelmator Pro에서 배경 제거 → 내보내기 → Telegram으로 전송. 그런 다음 Elon Musk에 대해 동일한 작업을 수행하도록 요청합니다. 재생은 취약한 매크로가 아닙니다 — 게시된 스킬은 의도 단계, 경로 옵션 및 GUI 힌트만을 대비책으로 저장합니다. 사용 가능할 때 더 빠른 경로를 선호하여 모든 GUI 단계를 반복하지 않을 수 있습니다.
설치 및 설정
현재 플랫폼: macOS 전용. 설치 방법은 npm을 통합니다:
npm install -g @understudy-ai/understudy
understudy wizard
쇼케이스 데모의 게시된 스킬 아티팩트는 examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md에서 확인할 수 있습니다.
대상 사용자
여러 데스크톱 애플리케이션에서 작업하며, 사용자 정의 통합이나 워크플로우 빌더를 구축하지 않고 반복적인 작업을 자동화하려는 개발자입니다.
📖 Read the full source: HN AI Agents
👀 See Also

OpenClaw 확장 프로그램은 요청을 API 대신 Claude Code CLI를 통해 라우팅합니다.
OpenClaw 확장 프로그램은 Claude CLI 바이너리를 하위 프로세스로 생성하여 요청을 Anthropic API 대신 Claude Code CLI를 통해 라우팅합니다. 이는 최대 요금제의 고정 요금으로 완전한 Claude Code 경험을 제공합니다.

Rust와 Tauri로 로컬 오픈소스 AI 작업 공간 구축하기
Rust, Tauri 및 sqlite-vec를 사용하여 구축된 완전히 로컬이며 오픈 소스인 AI 작업 공간을 탐색해보세요. Python 백엔드 없이 구현되었습니다.

호크아이 업데이트, 스웜 오케스트레이션, 원격 작업 및 로컬 모델 지원 추가
Hawkeye v1.0+는 이제 멀티 에이전트 스웜 오케스트레이션, 원격 작업 큐잉, 개선된 Ollama/LM Studio 통합을 지원합니다. 로컬 퍼스트 AI 에이전트 비행 기록기는 개발자들이 에이전트가 저장소에서 작업할 때 발생하는 일을 추적하는 데 도움을 줍니다.

Git Worktrees를 사용한 Claude 코드용 병렬 에이전트 오케스트레이터
한 개발자가 깃 워크트리를 사용하여 Claude Code 에이전트를 위한 격리된 환경을 생성하는 병렬 오케스트레이터를 구축했으며, 이로 인해 공유 작업 디렉터리로 인해 앱이 손상되고 깃 상태가 지저분해지는 문제를 해결했습니다.