LumaBrowser: Браузер на Electron передает парсинг DOM локальным LLM для AI-агентов

Что делает LumaBrowser
LumaBrowser — это браузер на основе Electron, созданный специально для автономных ИИ-агентов, которым необходимо взаимодействовать с веб-страницами. Основная проблема, которую он решает: ранее агентам приходилось обрабатывать мегабайты сырого HTML только для того, чтобы найти простые элементы интерфейса, такие как кнопки входа, что тратило ценное пространство контекстного окна и вычислительные ресурсы.
Как это работает
Браузер подключается к любой совместимой с OpenAI конечной точке (создатель использует LM Studio) для обработки парсинга DOM. Когда агенту нужно взаимодействовать с элементом страницы, локальная модель анализирует структуру DOM, идентифицирует целевой элемент (например, «кнопку входа») и возвращает соответствующий CSS-селектор. Это позволяет основным моделям агентов сосредоточиться на своих фактических задачах вместо парсинга HTML.
Техническая реализация
- Архитектура: Браузер Electron с MCP-сервером через stdio и REST API
- Интеграция моделей: Работает с любой совместимой с OpenAI конечной точкой
- Используемая модель: Создатель сообщает об использовании вариантов Qwen 2.5, в частности 35B-A3B через LM Studio
- Механизм обмена: Когда LLM успешно разрешает селектор, она делится анонимизированным сопоставлением с публичной базой данных, чтобы со временем улучшить производительность резервного варианта
- Экспериментальная функция: Режим WebGPU для запуска небольших моделей непосредственно в браузере (создатель отмечает, что результаты пока «неоднозначны»)
Сценарий использования создателя
Разработчик запускает автономных агентов на настройке 5090/3090 для выполнения запланированных задач. Доступ к браузеру ранее был самым слабым звеном, потому что агентам приходилось обрабатывать целые HTML-документы только для поиска простых элементов. С LumaBrowser парсинг DOM перекладывается на специализированные модели, в то время как основные агенты остаются сосредоточенными на логике задач более высокого уровня.
Доступность
Инструмент бесплатен для использования. Создатель активно ищет отзывы о том, какие модели лучше всего подходят для задач идентификации DOM/элементов интерфейса.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

agent-recall: Локальный SQLite MCP для постоянной памяти кода Claude
agent-recall — это MCP-сервер, который предоставляет Claude Code постоянную память между сессиями с использованием локального файла SQLite. Он предлагает 9 инструментов MCP для сохранения сущностей, связей и наблюдений, а также предоставляет сводки, сгенерированные ИИ, в начале сессии вместо выгрузки сырых данных.

Statespace: Создавайте интерактивные веб-приложения для агентов OpenClaw с помощью Markdown
Statespace — это бесплатный, открытый фреймворк для создания и обмена веб-приложениями, совместимыми с ИИ, которыми агенты OpenClaw могут управлять и взаимодействовать с ними, используя чистый Markdown. Он позволяет определять инструменты, компоненты и инструкции в Markdown-файлах, к которым агенты получают доступ через HTTP.

md-redline: графический инструмент для проверки и передачи документов в формате Markdown в Claude
md-redline — это инструмент с открытым исходным кодом, который позволяет открывать файлы Markdown в графическом интерфейсе, оставлять встроенные комментарии, сохраняемые как HTML-маркеры в .md-файле, и передавать документ обратно в Claude для обновлений. Он работает локально, не требуя аккаунта, облачных сервисов или базы данных.

Открытый порт CLI Claude Code на Go выпущен как claw-code-go
Разработчик dolm09 выпустил claw-code-go — полный порт на Go CLI Claude Code с автономным бинарным файлом менее 10 тысяч строк кода. Проект включает TUI с bubbletea, поддержку нескольких провайдеров, клиент MCP и механизм выполнения инструментов.