Agent-Desktop: 운영체제 접근성 트리를 통한 구조화된 데스크톱 자동화

Agent-desktop은 Rust로 구축된 네이티브 데스크탑 자동화 CLI로, 프로그래밍 방식으로 데스크탑 애플리케이션을 제어해야 하는 AI 에이전트를 위해 설계되었습니다. 일반적인 스크린샷 기반 접근 방식(스크린샷 촬영, 픽셀 좌표 예측, 클릭, 반복) 대신 운영 체제의 접근성 트리(화면 리더가 사용하는 것과 동일한 구조화된 데이터)를 통해 상호 작용합니다. 즉, 모델이 요소 역할, 이름, 계층 구조 및 상태를 직접 확인하므로 상호 작용이 더 빠르고 저렴하며 UI 변경에도 더 강력합니다.
주요 기능
- 단일 Rust 바이너리(~15MB), 런타임 종속성 없음
- 관찰, 상호 작용, 키보드, 마우스, 알림, 클립보드 및 창 관리에 걸친 53개 명령어
- JSON 출력 — 오류 코드 및 복구 힌트가 포함된 기계 판독 가능 형식
- 접근성 우선 활성화 체인: 순수 접근성 API 전략을 먼저 사용하고, 실패 시 마우스 이벤트로 대체
- 결정론적 요소 참조(예:
@e1,@e2), UI 변경 시 낙관적 재식별 - 프로그레시브 스켈레톤 탐색: 먼저 얕은 트리(깊이 ~3),
children_count로 주석 처리, 그런 다음 특정 영역으로 드릴다운 - 창, 메뉴, 시트, 팝오버, 알림, 알림 지원
- Chromium/Electron 접근성 트리의 특수 처리를 통해 노이즈 감소
- cdylib을 통한 C ABI — 명령어당 프로세스를 생성하지 않고 Python, Swift, Go, Node, Ruby 또는 C에서 직접 로드 가능
일반적인 워크플로
Slack이나 VS Code처럼 복잡한 앱의 경우, 프로그레시브 스켈레톤 탐색을 사용하여 토큰 사용량을 최소화하세요:
# 1. 얕은 개요 — depth-3 맵, 잘린 컨테이너는 children_count 표시
esktop snapshot --skeleton --app Slack -i --compact
2. 관심 영역으로 드릴다운 (이름이 있는 컨테이너는 refs를 얻음)
agent-desktop snapshot --root @e3 -i --compact
3. 드릴다운에서 찾은 요소에 대해 작업 수행
agent-desktop click @e12
4. 동일한 영역을 다시 드릴다운하여 상태 변경 확인
agent-desktop snapshot --root @e3 -i --compact
더 간단한 앱의 경우 전체 스냅샷으로 충분합니다: agent-desktop snapshot --app Finder -i.
설치
npm install -g agent-desktop
# 또는 npx 사용: npx agent-desktop snapshot --app Finder -i
# 소스에서: cargo build --release
성능 통계
실제로 프로그레시브 스켈레톤 접근 방식은 Slack, VS Code, Notion과 같은 Electron 앱에서 전체 트리 덤프와 비교하여 토큰 사용량을 78%에서 96%까지 줄였습니다. 예를 들어 Slack의 전체 접근성 트리는 50,000개 토큰을 초과할 수 있으며, 이는 대부분의 LLM 컨텍스트에 비실용적입니다.
대상 사용자
데스크탑 에이전트, 내부 자동화 도구 또는 연구 프로토타입을 구축하는 개발자로서 스크린샷 기반 제어 루프의 비용과 불안정성을 피하고자 하는 분들.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

루마브라우저: AI 에이전트를 위해 DOM 파싱을 로컬 LLM에 오프로드하는 일렉트론 브라우저
LumaBrowser는 OpenAI 호환 엔드포인트를 통해 DOM 파싱을 로컬 LLM에 오프로드하는 Electron 브라우저로, 자율 에이전트가 원시 HTML을 처리하지 않도록 돕습니다. Qwen 2.5 변형과 같은 모델을 사용하여 UI 요소를 식별하고 CSS 선택자를 반환합니다.

구글, 리눅스 커널 패치용 AI 코드 리뷰 에이전트 '사시코(Sashiko)' 공개
구글 엔지니어들이 리눅스 커널을 위해 설계된 에이전트형 AI 코드 리뷰 시스템 '사시코(Sashiko)'를 오픈소스로 공개했습니다. 이 시스템은 최근 업스트림 이슈 1,000건 중 인간 리뷰어들이 놓친 버그의 53%를 발견했습니다.

오픈소스 Claude Code 기술이 AI 도입 장애 요인을 진단합니다
MIT 라이선스의 Claude Code 스킬이 AI 도입에 있어 기업들이 어디에서 막히는지(도구, 문화, 측정) 분석하고, 책임자를 지정한 90일 계획을 수립합니다. 100명 이상의 창업자 및 이사회 멤버와의 인터뷰를 바탕으로 합니다.

MatchKit: Claude 코드 프로젝트를 위한 디자인 시스템 생성기
MatchKit은 Claude Code로 구축된 프로젝트를 위한 완전한 브랜드 디자인 시스템을 생성하는 도구입니다. 업로드된 로고에서 브랜드 색상을 추출하고, AI 코딩 도구에서 흔히 볼 수 있는 일반적인 느낌을 피하기 위해 사용자 정의 가능한 컴포넌트, 레이아웃 및 디자인 토큰을 생성합니다.