Два исследовательских проекта ставят под сомнение имитационное обучение для веб-агентов

Два подхода к обучению веб-агентов
Два исследовательских проекта ставят под сомнение стандартный подход обучения ИИ-агентов исключительно через имитацию экспертных демонстраций, уделяя особое внимание задачам заполнения веб-форм, где модели должны ориентироваться на реальных сайтах, заполнять поля, нажимать кнопки и отправлять формы.
Browser in the Loop: Обучение с подкреплением для выполнения задач
Первый проект, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), использует модель на 8 миллиардов параметров в цикле обратной связи с реальным браузером. Вместо простой имитации экспертных демонстраций модель генерирует планы действий, выполняет их на реальных веб-формах и учится на результатах.
Обучение с подкреплением превращает почти идеальные попытки (где все поля заполнены правильно, но отправка не удаётся) в реальные успехи. Улучшения достигаются не за счёт лучшего заполнения полей, а благодаря обучению завершать задачи — то, на что чистая имитация никогда не была направлена.
Concentrate or Collapse: Проблемы обучения с подкреплением с диффузионными моделями
Второй проект, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), исследует, что происходит, когда модели вообще не генерируют действия слева направо. Диффузионные языковые модели совершенствуют целые последовательности действий параллельно, но применение того же обучения с подкреплением, которое работает для авторегрессионных моделей, приводит к коллапсу этих диффузионных моделей, когда их выводы деградируют до бессвязности.
В 16 контролируемых сравнениях обучение с подкреплением на уровне токенов улучшило результаты лишь дважды. Решение потребовало переосмысления оптимизации на уровне последовательностей, где один метод (ESPO) наконец прорвался для чистых диффузионных архитектур.
Ключевые выводы
Исследование подчёркивает, что большинство бенчмарков для веб-агентов по-прежнему оценивают сходство текста с эталонными траекториями, а не фактическое выполнение задач. Эти проекты показывают, что то, что выглядит правильным на бумаге, и то, что действительно работает в браузере — разные проблемы, и оптимизация не для той задачи оставляет потенциал нераскрытым.
Все 12 обученных моделей и их конвейер были опубликованы в открытом доступе: код на github.com/billy-enrizky/openbrowser-ai и модели на huggingface.co/billyenrizky.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Выпуск Claude-Code версии 2.1.74: Исправления утечек памяти, оптимизация контекста и улучшения плагинов
Claude-Code v2.1.74 исправляет критическую утечку памяти в потоковых ответах API, которая вызывала неограниченный рост RSS на путях кода Node.js/npm. Обновление добавляет практические рекомендации к команде /context и вводит настройку autoMemoryDirectory для пользовательского хранилища автоматической памяти.

Улучшения и исправления Claude-Code v2.1.45
Claude-Code v2.1.45 внедряет поддержку Claude Sonnet 4.6 и различные исправления для стабильности системы.

Дилемма разработчика: соображения национальной безопасности ограничивают выбор открытых моделей
Разработчик, работающий с клиентами, чувствительными к вопросам национальной безопасности, сообщает о вынужденном выборе между устаревшими открытыми моделями США, такими как gpt-oss-120b, и более мощными китайскими моделями, такими как GLM и MiniMax, которые клиенты отвергают как угрозу национальной безопасности.

Искусственный интеллект не смог повысить продуктивность, согласно недавнему исследованию CEOs.
Несмотря на широкое внедрение ИИ, исследование 6000 руководителей сообщает о незначительных влияниях на производительность и занятость, что перекликается с парадоксом производительности, выявленным в эпоху ИТ 1980-х годов.