Automatización navegador IA: Costo tokens varía 2.6x con misma precisión

Resultados de la evaluación comparativa: Misma precisión, costos diferentes

Una evaluación comparativa probó 4 herramientas CLI de automatización de navegadores utilizando el mismo modelo (Claude Sonnet 4.6) en 6 tareas del mundo real contra sitios web en vivo. Todas las herramientas obtuvieron un 100% de precisión en 18 ejecuciones de tareas, pero el uso de tokens varió drásticamente:

openbrowser-ai: 36,010 tokens / 84.8s / 15.3 llamadas a herramientas
browser-use: 77,123 tokens / 106.0s / 20.7 llamadas a herramientas
playwright-cli (Microsoft): 94,130 tokens / 118.3s / 25.7 llamadas a herramientas
agent-browser (Vercel): 90,107 tokens / 99.0s / 25.0 llamadas a herramientas

Openbrowser-ai usó entre 2.1 y 2.6 veces menos tokens que las otras herramientas. La evaluación comparativa encontró que el número de llamadas a herramientas es el predictor más fuerte del costo en tokens porque cada llamada obliga al LLM a reprocesar todo el historial de la conversación.

Cómo difieren las herramientas en implementación

Las cuatro herramientas mantienen sesiones de navegador persistentes a través de demonios en segundo plano, pueden ejecutar JavaScript en el servidor y devolver solo el resultado, trabajan para hacer compacto el estado de la página y admiten alguna forma de ejecución de código.

browser-use expone comandos CLI individuales: open, click, input, scroll, state, eval. El LLM emite un comando por llamada a herramienta. eval ejecuta JavaScript en el contexto de la página. El estado de la página es un árbol DOM mejorado con índices [N] de aproximadamente 880 caracteres por página. Se comunica con Chrome a través de CDP directo mediante su biblioteca cdp-use.

agent-browser sigue un patrón similar: open, click, fill, snapshot, eval. Es un binario nativo de Rust que se comunica directamente con Chrome a través de CDP. El estado de la página es un árbol de accesibilidad con referencias u/eN. La bandera -i produce una salida compacta solo interactiva de alrededor de 590 caracteres. Los comandos se pueden encadenar con && pero cada uno sigue siendo una solicitud separada al demonio.

playwright-cli ofrece comandos individuales más run-code, que acepta JavaScript arbitrario de Playwright con acceso completo a la API. El LLM puede escribir código como run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" y ejecutar múltiples operaciones en una sola llamada. El estado de la página es un árbol de accesibilidad guardado en archivos .yml de aproximadamente 1,420 caracteres, con instantáneas incrementales que envían solo diferencias después de la primera lectura.

openbrowser-ai no tiene comandos individuales en absoluto. La única interfaz es código Python a través de -c:

openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'

navigate, click, input_text, evaluate, scroll son funciones asíncronas de Python en un espacio de nombres persistente. El estado de la página es DOM con índices [i_N] de aproximadamente 450 caracteres. Las variables persisten entre llamadas como en un cuaderno Jupyter.

La evaluación comparativa observó que el LLM hizo menos llamadas a herramientas con OpenBrowser (15.3 vs 20-26 para otras herramientas), lo que los autores atribuyen a que la interfaz solo de código fomenta naturalmente la agrupación de operaciones.

📖 Leer la fuente completa: r/ClaudeAI

El punto de referencia muestra que las herramientas de automatización de navegadores con IA varían 2.6 veces en costos de tokens a pesar de tener una precisión idéntica.

Resultados de la evaluación comparativa: Misma precisión, costos diferentes

Cómo difieren las herramientas en implementación

👀 Ver también

E2a: Puerta de enlace de correo electrónico de código abierto para agentes de IA con verificación SPF/DKIM y entrega mediante webhook/WebSocket

Claude Code v2.1.176: Sesiones conscientes del lenguaje, almacenamiento en caché de credenciales de Bedrock y docenas de correcciones

Títulos de artículos de Pokémon Showdown: Agentes de IA creados con APIs de LLM gratuitas y llamadas a herramientas

Habilidades de Claude de Código Abierto para Gerentes de Producto: Generador de PRD, Historias de Usuario, Notas de Reuniones