Агент-Desktop: Структурированная автоматизация рабочего стола через деревья доступности ОС

Agent-desktop — это CLI для автоматизации нативных десктопных приложений, написанный на Rust и предназначенный для AI-агентов, которым нужно программно управлять десктопными приложениями. Вместо распространённого подхода на основе скриншотов (сделать скриншот, предсказать координаты пикселей, кликнуть, повторить), он взаимодействует через деревья специальных возможностей операционной системы — те же структурированные данные, которые используют программы чтения с экрана. Это означает, что модель видит роли элементов, их имена, иерархию и состояние напрямую, что делает взаимодействие более быстрым, дешёвым и устойчивым к изменениям интерфейса.
Ключевые возможности
- Единый двоичный файл Rust (~15 МБ), без зависимостей времени выполнения
- 53 команды, охватывающие наблюдение, взаимодействие, клавиатуру, мышь, уведомления, буфер обмена и управление окнами
- Вывод в JSON — машиночитаемый с кодами ошибок и подсказками для восстановления
- Цепочка активации, основанная на специальных возможностях: используются стратегии чистого API специальных возможностей до перехода к событиям мыши
- Детерминированные ссылки на элементы (например,
@e1,@e2) с оптимистической переидентификацией при изменениях интерфейса - Прогрессивный обход скелета: сначала неглубокое дерево (глубина ~3), аннотированное
children_count, затем погружение в конкретные области - Поддержка окон, меню, листов, всплывающих окон, предупреждений и уведомлений
- Специальная обработка деревьев специальных возможностей Chromium/Electron для снижения шума
- C ABI через cdylib — может быть загружен напрямую из Python, Swift, Go, Node, Ruby или C без вызова оболочки для каждой команды
Типичный рабочий процесс
Для плотных приложений, таких как Slack или VS Code, используйте прогрессивный обход скелета, чтобы минимизировать использование токенов:
# 1. Общий обзор — карта глубины 3, усечённые контейнеры показывают children_count
agent-desktop snapshot --skeleton --app Slack -i --compact
2. Погружение в область интереса (именованные контейнеры получают ссылки)
agent-desktop snapshot --root @e3 -i --compact
3. Действие над элементом, найденным при погружении
agent-desktop click @e12
4. Повторное погружение в ту же область для проверки изменения состояния
agent-desktop snapshot --root @e3 -i --compact
Для более простых приложений подойдёт полный снимок: agent-desktop snapshot --app Finder -i.
Установка
npm install -g agent-desktop
# Или используйте npx: npx agent-desktop snapshot --app Finder -i
# Из исходников: cargo build --release
Статистика производительности
На практике прогрессивный обход скелета снизил использование токенов на от 78% до 96% по сравнению с дампами полного дерева в приложениях Electron, таких как Slack, VS Code и Notion. Например, полное дерево специальных возможностей Slack может превышать 50 000 токенов — что непрактично для большинства контекстов LLM.
Для кого это
Для разработчиков, создающих десктопных агентов, инструменты внутренней автоматизации или исследовательские прототипы, которые хотят избежать затрат и хрупкости контуров управления на основе скриншотов.
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

Google выпускает Sashiko: агент для проверки кода с помощью ИИ для патчей ядра Linux.
Инженеры Google открыли исходный код Sashiko, агентной системы ИИ для проверки кода, разработанной для ядра Linux. Она обнаружила 53% ошибок в нефильтрованном наборе из 1000 недавних проблем в основном репозитории, которые были пропущены людьми.

Мобильное приложение Off Grid добавило использование ИИ-инструментов на устройстве с трёхкратным увеличением скорости.
Мобильное приложение Off Grid теперь позволяет моделям ИИ использовать инструменты, такие как веб-поиск, калькулятор, дата/время и информацию об устройстве, полностью офлайн, с настраиваемыми параметрами кэша KV, обеспечивающими до 30 токенов в секунду на телефонах.

Airbyte Agents: Пред-индексированный контекстный слой для AI-агентов против сырых API MCP
Airbyte запускает Airbyte Agents — контекстный слой, который предварительно индексирует данные из операционных систем (Slack, Salesforce, Linear, Zendesk, Gong), снижая потребление токенов агентами до 90% по сравнению с прямыми MCP от вендоров.
Игла: 26-миллионная модель вызова инструментов, построенная полностью без FFN
Needle — это модель вызова функций с 26 миллионами параметров без MLP, достигающая 6000 токенов/с на префилле и 1200 токенов/с на декоде на потребительских устройствах. Она превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в одношаговом вызове инструментов.