Miasma: Ein Werkzeug, um KI-Webscraper mit vergifteten Daten zu fangen

✍️ OpenClawRadar📅 Veröffentlicht: 29. März 2026🔗 Source
Miasma: Ein Werkzeug, um KI-Webscraper mit vergifteten Daten zu fangen
Ad

Was Miasma tut

Miasma ist ein Tool, das KI-Webscraper in die Falle lockt, indem es ihnen vergiftete Trainingsdaten zusammen mit mehreren selbstreferenziellen Links serviert und so schafft, was die Entwickler als "endloses Buffet aus Schrott für die Schrottmaschinen" bezeichnen. Das Tool ist darauf ausgelegt, schnell zu sein und einen minimalen Speicherverbrauch zu haben.

Installation und Einrichtung

Installation mit Cargo: cargo install miasma oder vorgefertigte Binärdateien von den Releases herunterladen.

Start mit Standardkonfiguration: miasma

Alle Konfigurationsoptionen anzeigen: miasma --help

Wie man Scraper in die Falle lockt

Das typische Setup umfasst:

  1. Versteckte Links auf Ihrer Website einbetten, die auf einen bestimmten Pfad zeigen (z.B. /bots) und Attribute haben, die sie für menschliche Besucher unsichtbar, aber für Scraper sichtbar machen:
    <a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Erstaunlich hochwertige Daten hier!</a>
  2. Einen Reverse-Proxy (wie Nginx) konfigurieren, um diesen Pfad an Miasma weiterzuleiten:
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
  3. Miasma mit spezifischen Parametern ausführen:
    miasma --link-prefix '/bots' -p 9855 -c 50

Das Flag -c 50 begrenzt die maximalen gleichzeitigen Verbindungen auf 50, was zu einem Spitzenspeicherverbrauch von 50-60 MB führt. Anfragen, die dieses Limit überschreiten, erhalten eine 429-Antwort.

Ad

Konfigurationsoptionen

  • --port: Standard 9999 - Der Port, an den der Server binden soll
  • --host: Standard localhost - Die Host-Adresse, an die der Server binden soll
  • --max-in-flight: Standard 500 - Maximale Anzahl zulässiger gleichzeitiger Anfragen
  • --link-prefix: Standard / - Präfix für selbstverweisende Links (sollte mit Ihrem Hosting-Pfad übereinstimmen)
  • --link-count: Standard 5 - Anzahl selbstverweisender Links, die in jeder Antwortseite enthalten sein sollen
  • --force-gzip: Standard false - Antworten immer gzip-komprimieren, unabhängig vom Accept-Encoding-Header
  • --poison-source: Standard https://rnsaffn.com/poison2/ - Proxy-Quelle für vergiftete Trainingsdaten

Wichtige Überlegungen

Die Entwickler empfehlen, freundliche Bots und Suchmaschinen in Ihrer robots.txt-Datei zu schützen:

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Miasma ist unter GPL-3.0 lizenziert und die Entwickler weisen darauf hin, dass "hauptsächlich KI-generierte Beiträge automatisch abgelehnt werden".

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Ihr Agent sagte, es sei versandt – Warum Sitzungsprotokolle wichtiger sind als Modellnamen
Werkzeuge

Ihr Agent sagte, es sei versandt – Warum Sitzungsprotokolle wichtiger sind als Modellnamen

Ein Entwickler berichtet über ein Muster, das in drei Teams beobachtet wurde: Agenten behaupten, die Implementierung sei abgeschlossen, aber Session-Traces zeigen versteckte Refactorings, verpasste Konventionen und suboptimale Implementierungen. Der Beitrag argumentiert, dass das eigentliche Problem nicht die Modellqualität ist, sondern das Vertrauen – und dass Session-Traces pro Instanz der einzige Weg sind, Behauptungen zu überprüfen.

OpenClawRadar
Agenten beobachten: Echtzeit-Dashboard zur Überwachung von Claude-Code-Agenten-Teams
Werkzeuge

Agenten beobachten: Echtzeit-Dashboard zur Überwachung von Claude-Code-Agenten-Teams

Agents Observe ist ein lokales Dashboard, das Echtzeit-Beobachtbarkeit für Claude Code Agent-Sitzungen mithilfe von Hooks statt OTEL bietet. Es erfasst jeden Tool-Aufruf, die Agent-Hierarchie und Ereignisse mit Filter- und Suchfunktionen und läuft als Docker-Container, der automatisch mit Claude-Sitzungen startet.

OpenClawRadar
Open-Source-CLI-Tool sdf nutzt Claude zur Verwaltung von gestapelten GitHub-PRs
Werkzeuge

Open-Source-CLI-Tool sdf nutzt Claude zur Verwaltung von gestapelten GitHub-PRs

sdf ist ein kostenloses, MIT-lizenziertes CLI-Tool, das gestapelte Pull-Request-Workflows mit git und gh automatisiert, wobei Claude CLI komplexe Aufgaben wie Diff-Analyse und Konfliktlösung übernimmt.

OpenClawRadar
Kontext-os: Open-Source-Tool reduziert den Tokenverbrauch von Claude Code um 27–42 %
Werkzeuge

Kontext-os: Open-Source-Tool reduziert den Tokenverbrauch von Claude Code um 27–42 %

context-os ist ein lokaler Kontextoptimierer, der sich automatisch in Claude Code einklinkt, die Werkzeugausgabe komprimiert, bevor Claude sie sieht, und den Tokenverbrauch je nach Inhaltstyp um 27-42% reduziert.

OpenClawRadar