Локальные модели Qwen достигают автоматизации браузера с пошаговым планированием и компактным DOM.

Пошаговое планирование преодолевает неудачи предварительного планирования
Разработчик обнаружил, что просьба к моделям придумать полный многошаговый план до просмотра реального состояния страницы работает на знакомых сайтах, но быстро ломается при неожиданных элементах. Лучше сработало пошаговое планирование, при котором модель перепланирует на основе текущего снимка DOM на каждом шаге.
Пример процесса на Ace Hardware
Тестируемый процесс с Qwen 8B в качестве планировщика и 4B в качестве исполнителя на Ace Hardware (сайт, для которого у модели не было предыдущих задач) завершил полный процесс добавления в корзину без использования моделей компьютерного зрения. Пошаговый подход выглядел так:
- Шаг 1: увидеть поле поиска → ВВЕСТИ "газонокосилка"
- Шаг 2: увидеть результаты → НАЖАТЬ Добавить в корзину
- Шаг 3: появляется выдвижная панель → закрыть её
- Шаг 4: корзина видна → НАЖАТЬ Просмотреть корзину
- Шаг 5: ГОТОВО
Компактное представление DOM позволяет использовать небольшие модели
Модель никогда не видит исходный HTML или скриншоты — только семантическое табличное представление:
id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"
Это позволяет исполнителю 4B выбирать идентификатор элемента из короткого списка. Визуальные подходы тратят 2–3K токенов на скриншот, легко 50–100K+ для полного процесса, в то время как компактные снимки используют всего ~15K для той же задачи.
Обработка модальных окон критична для успеха
После каждого клика, если DOM внезапно увеличивается, агент сканирует шаблоны закрытия (close, ×, no thanks и т.д.) перед повторным планированием. Это исправило многие сбои, которые казались «плохим рассуждением», но на самом деле были скрытыми наложениями.
Разработчик отмечает, что ему интересно, замечают ли другие, что пошаговое планирование превосходит предварительное планирование, как только сайты становятся незнакомыми.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Инструмент резервного копирования Databasus PostgreSQL получает поддержку с открытым исходным кодом от Anthropic.
Anthropic признала инструмент для резервного копирования баз данных с открытым исходным кодом Databasus через свою программу Claude for Open Source, предоставив сопровождающим бесплатный доступ к Claude Max. Инструмент поддерживает PostgreSQL, MySQL, MariaDB и MongoDB с запланированными резервными копиями, 70+ вариантами хранения и шифрованием AES-256-GCM.

Creation OS: Локальная σ-затворная среда выполнения LLM, позволяющая моделям говорить «Я не знаю» вместо галлюцинаций
Creation OS оборачивает локальные LLM (BitNet, Qwen, Gemma, любые GGUF) с σ-затвором, который измеряет несколько каналов неопределенности и принимает решение ACCEPT, RETHINK или ABSTAIN для каждого вывода. Без облака, без API. Точность TruthfulQA улучшена ~29% за счет селективной регенерации.

Heartbeat-gateway: Событийная замена опросу cron в OpenClaw
Heartbeat-gateway — это инструмент с открытым исходным кодом на Python, который заменяет опрос на основе cron на события, управляемые вебхуками, для OpenClaw, снижая затраты на API с ~86 долларов в месяц до ~4,50 долларов в месяц и улучшая задержку с 30 минут до менее 2 секунд.

Оператор Kubernetes OpenClaw со встроенной поддержкой Ollama
Участник сообщества создал оператор OpenClaw для Kubernetes со встроенной поддержкой Ollama, что позволяет запускать AI-агентов с локальными моделями в том же пространстве имён. Настройка включает команды установки, детали конфигурации для локальных и облачных моделей Ollama, а также инструкции по доступу к панели управления.