Агент-Desktop: Структурированная автоматизация рабочего стола через деревья доступности ОС

✍️ OpenClawRadar📅 Опубликовано: 2 мая 2026 г.🔗 Source
Агент-Desktop: Структурированная автоматизация рабочего стола через деревья доступности ОС
Ad

Agent-desktop — это CLI для автоматизации нативных десктопных приложений, написанный на Rust и предназначенный для AI-агентов, которым нужно программно управлять десктопными приложениями. Вместо распространённого подхода на основе скриншотов (сделать скриншот, предсказать координаты пикселей, кликнуть, повторить), он взаимодействует через деревья специальных возможностей операционной системы — те же структурированные данные, которые используют программы чтения с экрана. Это означает, что модель видит роли элементов, их имена, иерархию и состояние напрямую, что делает взаимодействие более быстрым, дешёвым и устойчивым к изменениям интерфейса.

Ключевые возможности

  • Единый двоичный файл Rust (~15 МБ), без зависимостей времени выполнения
  • 53 команды, охватывающие наблюдение, взаимодействие, клавиатуру, мышь, уведомления, буфер обмена и управление окнами
  • Вывод в JSON — машиночитаемый с кодами ошибок и подсказками для восстановления
  • Цепочка активации, основанная на специальных возможностях: используются стратегии чистого API специальных возможностей до перехода к событиям мыши
  • Детерминированные ссылки на элементы (например, @e1, @e2) с оптимистической переидентификацией при изменениях интерфейса
  • Прогрессивный обход скелета: сначала неглубокое дерево (глубина ~3), аннотированное children_count, затем погружение в конкретные области
  • Поддержка окон, меню, листов, всплывающих окон, предупреждений и уведомлений
  • Специальная обработка деревьев специальных возможностей Chromium/Electron для снижения шума
  • C ABI через cdylib — может быть загружен напрямую из Python, Swift, Go, Node, Ruby или C без вызова оболочки для каждой команды
Ad

Типичный рабочий процесс

Для плотных приложений, таких как Slack или VS Code, используйте прогрессивный обход скелета, чтобы минимизировать использование токенов:

# 1. Общий обзор — карта глубины 3, усечённые контейнеры показывают children_count
agent-desktop snapshot --skeleton --app Slack -i --compact

2. Погружение в область интереса (именованные контейнеры получают ссылки)

agent-desktop snapshot --root @e3 -i --compact

3. Действие над элементом, найденным при погружении

agent-desktop click @e12

4. Повторное погружение в ту же область для проверки изменения состояния

agent-desktop snapshot --root @e3 -i --compact

Для более простых приложений подойдёт полный снимок: agent-desktop snapshot --app Finder -i.

Установка

npm install -g agent-desktop
# Или используйте npx: npx agent-desktop snapshot --app Finder -i
# Из исходников: cargo build --release

Статистика производительности

На практике прогрессивный обход скелета снизил использование токенов на от 78% до 96% по сравнению с дампами полного дерева в приложениях Electron, таких как Slack, VS Code и Notion. Например, полное дерево специальных возможностей Slack может превышать 50 000 токенов — что непрактично для большинства контекстов LLM.

Для кого это

Для разработчиков, создающих десктопных агентов, инструменты внутренней автоматизации или исследовательские прототипы, которые хотят избежать затрат и хрупкости контуров управления на основе скриншотов.

📖 Прочитать полный источник: HN AI Agents

Ad

👀 Смотрите также

Google выпускает Sashiko: агент для проверки кода с помощью ИИ для патчей ядра Linux.
Инструменты

Google выпускает Sashiko: агент для проверки кода с помощью ИИ для патчей ядра Linux.

Инженеры Google открыли исходный код Sashiko, агентной системы ИИ для проверки кода, разработанной для ядра Linux. Она обнаружила 53% ошибок в нефильтрованном наборе из 1000 недавних проблем в основном репозитории, которые были пропущены людьми.

OpenClawRadar
Мобильное приложение Off Grid добавило использование ИИ-инструментов на устройстве с трёхкратным увеличением скорости.
Инструменты

Мобильное приложение Off Grid добавило использование ИИ-инструментов на устройстве с трёхкратным увеличением скорости.

Мобильное приложение Off Grid теперь позволяет моделям ИИ использовать инструменты, такие как веб-поиск, калькулятор, дата/время и информацию об устройстве, полностью офлайн, с настраиваемыми параметрами кэша KV, обеспечивающими до 30 токенов в секунду на телефонах.

OpenClawRadar
Airbyte Agents: Пред-индексированный контекстный слой для AI-агентов против сырых API MCP
Инструменты

Airbyte Agents: Пред-индексированный контекстный слой для AI-агентов против сырых API MCP

Airbyte запускает Airbyte Agents — контекстный слой, который предварительно индексирует данные из операционных систем (Slack, Salesforce, Linear, Zendesk, Gong), снижая потребление токенов агентами до 90% по сравнению с прямыми MCP от вендоров.

OpenClawRadar
🦀
Инструменты

Игла: 26-миллионная модель вызова инструментов, построенная полностью без FFN

Needle — это модель вызова функций с 26 миллионами параметров без MLP, достигающая 6000 токенов/с на префилле и 1200 токенов/с на декоде на потребительских устройствах. Она превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в одношаговом вызове инструментов.

OpenClawRadar