Ограничения имитационного обучения для веб-агентов: 2 проекта

Два подхода к обучению веб-агентов

Два исследовательских проекта ставят под сомнение стандартный подход обучения ИИ-агентов исключительно через имитацию экспертных демонстраций, уделяя особое внимание задачам заполнения веб-форм, где модели должны ориентироваться на реальных сайтах, заполнять поля, нажимать кнопки и отправлять формы.

Browser in the Loop: Обучение с подкреплением для выполнения задач

Первый проект, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), использует модель на 8 миллиардов параметров в цикле обратной связи с реальным браузером. Вместо простой имитации экспертных демонстраций модель генерирует планы действий, выполняет их на реальных веб-формах и учится на результатах.

Обучение с подкреплением превращает почти идеальные попытки (где все поля заполнены правильно, но отправка не удаётся) в реальные успехи. Улучшения достигаются не за счёт лучшего заполнения полей, а благодаря обучению завершать задачи — то, на что чистая имитация никогда не была направлена.

Concentrate or Collapse: Проблемы обучения с подкреплением с диффузионными моделями

Второй проект, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), исследует, что происходит, когда модели вообще не генерируют действия слева направо. Диффузионные языковые модели совершенствуют целые последовательности действий параллельно, но применение того же обучения с подкреплением, которое работает для авторегрессионных моделей, приводит к коллапсу этих диффузионных моделей, когда их выводы деградируют до бессвязности.

В 16 контролируемых сравнениях обучение с подкреплением на уровне токенов улучшило результаты лишь дважды. Решение потребовало переосмысления оптимизации на уровне последовательностей, где один метод (ESPO) наконец прорвался для чистых диффузионных архитектур.

Ключевые выводы

Исследование подчёркивает, что большинство бенчмарков для веб-агентов по-прежнему оценивают сходство текста с эталонными траекториями, а не фактическое выполнение задач. Эти проекты показывают, что то, что выглядит правильным на бумаге, и то, что действительно работает в браузере — разные проблемы, и оптимизация не для той задачи оставляет потенциал нераскрытым.

Все 12 обученных моделей и их конвейер были опубликованы в открытом доступе: код на github.com/billy-enrizky/openbrowser-ai и модели на huggingface.co/billyenrizky.

📖 Read the full source: r/LocalLLaMA

Два исследовательских проекта ставят под сомнение имитационное обучение для веб-агентов

Два подхода к обучению веб-агентов

Browser in the Loop: Обучение с подкреплением для выполнения задач

Concentrate or Collapse: Проблемы обучения с подкреплением с диффузионными моделями

Ключевые выводы

👀 Смотрите также

Китай запретил соучредителям Manus покидать страну на фоне проверки сделки с Meta

Claude Code v2.1.145: Список агентов JSON, исправления OTEL-спанов, исправление безопасности и другое

Google тихо покупает код Play Store для обучения инструментов AI-кодирования

Искусственный интеллект управляет физическим розничным магазином с сотрудниками-людьми