PageAgent: Browser-AI-Agent mit Ollama-Unterstützung ausführen

Was PageAgent macht

PageAgent ist ein Browser-KI-Agenten-Framework, das als JavaScript-Bibliothek innerhalb der Webseiten selbst läuft, im Gegensatz zu den meisten Frameworks wie Playwright oder Selenium, die den Browser von außen steuern.

Wichtige technische Details

Der Agent liest den Live-DOM als Text, wodurch Screenshots oder Vision-Modelle überflüssig werden, was ihn schneller und token-effizienter macht.

Es funktioniert mit jedem OpenAI-kompatiblen Endpunkt, einschließlich Ollama. In Kombination mit einem lokalen Modell bleibt alles auf Ihrem Rechner – ohne Backend oder Cloud. LLM-Aufrufe gehen direkt vom Browser zu localhost.

Code-Beispiel

const agent = new PageAgent({ 
  model: 'qwen3.5:27b', 
  baseURL: 'http://localhost:11434/v1', 
})
await agent.execute('Fill the expense report for last Friday')

Zusätzliche Funktionen

Human-in-the-loop-Panel, das Ihnen erlaubt, den Denkprozess des Agenten zu verfolgen und ihn jederzeit zu stoppen oder zu korrigieren
Optionale Browser-Erweiterung für Multi-Tab-Aufgaben
MIT-lizenziert

Das Projekt ist auf GitHub unter alibaba/page-agent verfügbar.

📖 Read the full source: r/LocalLLaMA

PageAgent: Browser-AI-Agent, der innerhalb von Webseiten mit Ollama-Unterstützung läuft

Was PageAgent macht

Wichtige technische Details

Code-Beispiel

Zusätzliche Funktionen

👀 Siehe auch

PullMD v2.4.1 fügt nativen MCP-Connector für claude.ai Web und Multi-User-Auth hinzu

Auto-co: Ein 50-Zeilen-Bash-Skript, das Claude-Code in autonome KI-Unternehmen verwandelt

skillcheck: Ein Linter für SKILL.md-Dateien, der plattformübergreifende Kompatibilitätsprobleme erkennt

Modus: Open-Source AI-IDE mit spezifikationsgetriebener Entwicklung und Agent-Hooks