LumaBrowser : Navigateur Electron délègue DOM aux LLM pour agents IA

Ce que fait LumaBrowser

LumaBrowser est un navigateur basé sur Electron conçu spécifiquement pour les agents d'IA autonomes qui doivent interagir avec des pages web. Le problème central qu'il résout : auparavant, les agents étaient obligés de traiter des mégaoctets de HTML brut juste pour trouver des éléments d'interface simples comme des boutons de connexion, gaspillant un espace précieux dans la fenêtre de contexte et des ressources de calcul.

Comment cela fonctionne

Le navigateur se connecte à n'importe quel point de terminaison compatible OpenAI (le créateur utilise LM Studio) pour gérer l'analyse du DOM. Lorsqu'un agent doit interagir avec un élément de page, le modèle local analyse la structure du DOM, identifie l'élément cible (comme "le bouton de connexion") et renvoie le sélecteur CSS approprié. Cela permet aux principaux modèles d'agents de rester concentrés sur leurs tâches réelles au lieu d'analyser du HTML.

Implémentation technique

Architecture : Navigateur Electron avec serveur MCP via stdio et API REST
Intégration des modèles : Fonctionne avec n'importe quel point de terminaison compatible OpenAI
Modèle utilisé : Le créateur rapporte utiliser des variantes de Qwen 2.5, spécifiquement 35B-A3B via LM Studio
Mécanisme de partage : Lorsqu'un LLM résout avec succès un sélecteur, il partage une cartographie anonymisée vers une base de données publique pour améliorer les performances de secours au fil du temps
Fonctionnalité expérimentale : Mode WebGPU pour exécuter de petits modèles directement dans le navigateur (le créateur note que les résultats sont "aléatoires jusqu'à présent")

Cas d'utilisation du créateur

Le développeur exécute des agents autonomes sur une configuration 5090/3090 effectuant des tâches planifiées. L'accès au navigateur était auparavant le maillon faible car les agents devaient traiter des documents HTML entiers juste pour trouver des éléments simples. Avec LumaBrowser, l'analyse du DOM est déléguée à des modèles spécialisés, tandis que les principaux agents restent concentrés sur la logique de tâche de haut niveau.

Disponibilité

L'outil est gratuit. Le créateur recherche activement des retours sur les modèles qui fonctionnent le mieux pour les tâches d'identification d'éléments DOM/UI.

📖 Read the full source: r/LocalLLaMA