Qwen 8B/4B 로컬 모델, 단계별 계획으로 브라우저 자동화 성공

단계별 계획이 사전 계획 실패를 극복하다

개발자는 실제 페이지 상태를 보기 전에 모델에게 완전한 다단계 계획을 수립하도록 요청하는 방식이 익숙한 사이트에서는 작동하지만 예상치 못한 요소에서는 빠르게 실패한다는 사실을 발견했습니다. 더 효과적인 방법은 각 단계에서 현재 DOM 스냅샷을 기반으로 모델이 재계획하는 단계별 계획이었습니다.

Ace Hardware에서의 예시 흐름

Qwen 8B를 플래너로, 4B를 실행자로 사용하여 Ace Hardware(모델이 사전 작업 경험이 없는 사이트)에서 테스트한 흐름은 비전 모델을 전혀 사용하지 않고 전체 장바구니 흐름을 완료했습니다. 단계별 접근 방식은 다음과 같았습니다:

단계 1: 검색창 확인 → "잔디 깎는 기계" 입력
단계 2: 결과 확인 → 장바구니 추가 클릭
단계 3: 서랍 등장 → 닫기
단계 4: 장바구니 표시 → 장바구니 보기 클릭
단계 5: 완료

컴팩트 DOM 표현으로 소규모 모델 가능해지다

모델은 원시 HTML이나 스크린샷을 보지 않습니다. 단지 의미론적 테이블 표현만을 봅니다:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

이를 통해 4B 실행자는 짧은 목록에서 요소 ID를 선택할 수 있습니다. 비전 접근 방식은 스크린샷당 2-3K 토큰을 소모하여 전체 흐름에 쉽게 50-100K+를 사용하는 반면, 컴팩트 스냅샷은 동일한 작업에 총 ~15K만 사용합니다.