로컬 Qwen 모델이 단계별 계획과 간결한 DOM으로 브라우저 자동화 달성

✍️ OpenClawRadar📅 게시일: March 17, 2026🔗 Source
로컬 Qwen 모델이 단계별 계획과 간결한 DOM으로 브라우저 자동화 달성
Ad

단계별 계획이 사전 계획 실패를 극복하다

개발자는 실제 페이지 상태를 보기 전에 모델에게 완전한 다단계 계획을 수립하도록 요청하는 방식이 익숙한 사이트에서는 작동하지만 예상치 못한 요소에서는 빠르게 실패한다는 사실을 발견했습니다. 더 효과적인 방법은 각 단계에서 현재 DOM 스냅샷을 기반으로 모델이 재계획하는 단계별 계획이었습니다.

Ace Hardware에서의 예시 흐름

Qwen 8B를 플래너로, 4B를 실행자로 사용하여 Ace Hardware(모델이 사전 작업 경험이 없는 사이트)에서 테스트한 흐름은 비전 모델을 전혀 사용하지 않고 전체 장바구니 흐름을 완료했습니다. 단계별 접근 방식은 다음과 같았습니다:

  • 단계 1: 검색창 확인 → "잔디 깎는 기계" 입력
  • 단계 2: 결과 확인 → 장바구니 추가 클릭
  • 단계 3: 서랍 등장 → 닫기
  • 단계 4: 장바구니 표시 → 장바구니 보기 클릭
  • 단계 5: 완료

컴팩트 DOM 표현으로 소규모 모델 가능해지다

모델은 원시 HTML이나 스크린샷을 보지 않습니다. 단지 의미론적 테이블 표현만을 봅니다:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

이를 통해 4B 실행자는 짧은 목록에서 요소 ID를 선택할 수 있습니다. 비전 접근 방식은 스크린샷당 2-3K 토큰을 소모하여 전체 흐름에 쉽게 50-100K+를 사용하는 반면, 컴팩트 스냅샷은 동일한 작업에 총 ~15K만 사용합니다.

성공을 위한 모달 처리의 중요성

각 클릭 후 DOM이 갑자기 증가하면 에이전트는 다시 계획하기 전에 해제 패턴(닫기, ×, 아니요 등)을 검색합니다. 이는 "나쁜 추론"으로 보였지만 실제로는 숨겨진 오버레이였던 많은 실패를 수정했습니다.

개발자는 다른 사람들도 사이트가 익숙하지 않아질 때 단계별 계획이 사전 계획을 능가하는 현상을 관찰하고 있는지 궁금해하고 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

C# 및 로컬 LLM으로 자율 연구 에이전트 구축하기
Tools

C# 및 로컬 LLM으로 자율 연구 에이전트 구축하기

C# 연구 에이전트는 Ollama와 llama3.1:8b를 사용하여 로컬 LLM으로 URL 처리를 자동화하고, 웹 검색에서 구조화된 마크다운 보고서를 생성합니다.

OpenClawRadar
잉크: 클로드 AI 에이전트가 주요 사용자인 배포 플랫폼
Tools

잉크: 클로드 AI 에이전트가 주요 사용자인 배포 플랫폼

Ink(ml.ink)는 Claude와 같은 AI 에이전트를 위한 배포 플랫폼으로, 단일 도구 호출 배포, 프레임워크 자동 감지, 컴퓨팅, 데이터베이스, DNS, 비밀, 도메인, 메트릭, 로그 등 통합 서비스를 제공합니다.

OpenClawRadar
자동 최적화: 자율 성능 최적화를 위한 Claude 코드 플러그인
Tools

자동 최적화: 자율 성능 최적화를 위한 Claude 코드 플러그인

한 개발자가 코드 성능을 최적화하기 위해 프로파일링 → 계획 → 벤치마크 루프를 자율적으로 실행하는 Claude Code 플러그인인 auto-optimize를 구축했습니다. 한 테스트에서 약 3시간 만에 모든 벤치마크 시나리오에서 27% 더 빠른 해시 테이블을 달성했습니다.

OpenClawRadar
Be My Butler: AI 코드 검증을 위한 멀티 에이전트 파이프라인
Tools

Be My Butler: AI 코드 검증을 위한 멀티 에이전트 파이프라인

Be My Butler는 다양한 AI 모델이 블라인드 검증을 통해 서로의 코드를 검토하는 오픈소스 멀티 에이전트 파이프라인입니다. 이 시스템은 AI 에이전트가 자신의 코드를 잘못된 상태로 보고하는 문제를 해결합니다.

OpenClawRadar