LumaBrowser: DOM-Parsing via lokale LLMs für KI-Agenten

Was LumaBrowser macht

LumaBrowser ist ein auf Electron basierender Browser, der speziell für autonome KI-Agenten entwickelt wurde, die mit Webseiten interagieren müssen. Das Kernproblem, das er löst: Agenten mussten zuvor Megabytes an rohem HTML verarbeiten, nur um einfache UI-Elemente wie Login-Buttons zu finden, was wertvollen Kontextfensterplatz und Rechenressourcen verschwendete.

Wie es funktioniert

Der Browser verbindet sich mit jedem OpenAI-kompatiblen Endpunkt (der Ersteller verwendet LM Studio), um das DOM-Parsing zu handhaben. Wenn ein Agent mit einem Seitenelement interagieren muss, analysiert das lokale Modell die DOM-Struktur, identifiziert das Zielelement (wie "den Login-Button") und gibt den entsprechenden CSS-Selektor zurück. Dadurch bleiben die Hauptagentenmodelle auf ihre eigentlichen Aufgaben fokussiert, anstatt HTML zu parsen.

Technische Umsetzung

Architektur: Electron-Browser mit MCP-Server über stdio und REST-API
Modellintegration: Funktioniert mit jedem OpenAI-kompatiblen Endpunkt
Verwendetes Modell: Der Ersteller berichtet von der Verwendung von Qwen 2.5-Varianten, speziell 35B-A3B über LM Studio
Teilmechanismus: Wenn ein LLM erfolgreich einen Selektor auflöst, teilt es eine anonymisierte Zuordnung mit einer öffentlichen Datenbank, um die Fallback-Leistung im Laufe der Zeit zu verbessern
Experimentelle Funktion: WebGPU-Modus zum direkten Ausführen kleiner Modelle im Browser (der Ersteller merkt an, dass die Ergebnisse bisher "unterschiedlich erfolgreich sind")

Anwendungsfall des Erstellers

Der Entwickler betreibt autonome Agenten auf einem 5090/3090-Setup, die geplante Aufgaben ausführen. Der Browserzugriff war zuvor der schwächste Punkt, weil Agenten gesamte HTML-Dokumente verarbeiten mussten, nur um einfache Elemente zu finden. Mit LumaBrowser wird das DOM-Parsing an spezialisierte Modelle ausgelagert, während die Hauptagenten sich auf die höhere Aufgabentlogik konzentrieren.

Verfügbarkeit

Das Tool ist kostenlos nutzbar. Der Erstler sucht aktiv nach Feedback dazu, welche Modelle am besten für DOM/UI-Elementidentifikationsaufgaben geeignet sind.

📖 Read the full source: r/LocalLLaMA