AI 브라우저 자동화 도구 토큰 비용 최대 2.6배 차이 (벤치마크)

벤치마크 결과: 동일한 정확도, 다른 비용

실제 웹사이트를 대상으로 6가지 실제 작업에 대해 동일한 모델(Claude Sonnet 4.6)을 사용하여 4가지 CLI 브라우저 자동화 도구를 벤치마크 테스트했습니다. 모든 도구가 18개 작업 실행에서 100% 정확도를 기록했지만 토큰 사용량은 크게 달랐습니다:

openbrowser-ai: 36,010 토큰 / 84.8초 / 15.3 도구 호출
browser-use: 77,123 토큰 / 106.0초 / 20.7 도구 호출
playwright-cli (Microsoft): 94,130 토큰 / 118.3초 / 25.7 도구 호출
agent-browser (Vercel): 90,107 토큰 / 99.0초 / 25.0 도구 호출

Openbrowser-ai는 다른 도구들보다 2.1~2.6배 적은 토큰을 사용했습니다. 벤치마크 결과, 도구 호출 횟수가 토큰 비용의 가장 강력한 예측 변수로 나타났는데, 이는 모든 호출이 LLM이 전체 대화 기록을 재처리하도록 강제하기 때문입니다.

도구 구현 방식의 차이

네 가지 도구 모두 백그라운드 데몬을 통해 지속적인 브라우저 세션을 유지하고, 서버 측에서 JavaScript를 실행하여 결과만 반환하며, 페이지 상태를 간결하게 만들고, 일부 형태의 코드 실행을 지원합니다.

browser-use는 개별 CLI 명령어를 제공합니다: open, click, input, scroll, state, eval. LLM은 도구 호출당 하나의 명령어를 실행합니다. eval은 페이지 컨텍스트에서 JavaScript를 실행합니다. 페이지 상태는 페이지당 약 880자 정도의 [N] 인덱스가 있는 향상된 DOM 트리입니다. cdp-use 라이브러리를 통해 Chrome과 직접 CDP로 통신합니다.

agent-browser도 유사한 패턴을 따릅니다: open, click, fill, snapshot, eval. Chrome과 직접 CDP로 통신하는 네이티브 Rust 바이너리입니다. 페이지 상태는 u/eN 참조가 있는 접근성 트리입니다. -i 플래그는 약 590자 정도의 간결한 대화형 전용 출력을 생성합니다. 명령어는 &&로 연결할 수 있지만 각각은 여전히 별도의 데몬 요청입니다.

playwright-cli는 개별 명령어와 함께 run-code를 제공하며, 이는 전체 API 접근 권한이 있는 임의의 Playwright JavaScript를 허용합니다. LLM은 run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }"과 같은 코드를 작성하여 한 번의 호출로 여러 작업을 실행할 수 있습니다. 페이지 상태는 약 1,420자 정도의 .yml 파일에 저장된 접근성 트리이며, 증분 스냅샷은 첫 번째 읽기 이후에는 차이점만 전송합니다.

openbrowser-ai는 개별 명령어가 전혀 없습니다. 유일한 인터페이스는 -c를 통한 Python 코드입니다:

openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'

navigate, click, input_text, evaluate, scroll은 지속적인 네임스페이스의 비동기 Python 함수입니다. 페이지 상태는 약 450자 정도의 [i_N] 인덱스가 있는 DOM입니다. 변수는 Jupyter 노트북처럼 호출 간에 유지됩니다.

벤치마크에서 관찰된 바에 따르면, LLM은 OpenBrowser에서 더 적은 도구 호출을 수행했으며(다른 도구의 20-26회 대비 15.3회), 저자들은 이 코드 전용 인터페이스가 작업 배치 처리를 자연스럽게 장려하기 때문이라고 분석했습니다.

📖 전체 원문 읽기: r/ClaudeAI