Miasma: Ein Werkzeug, um KI-Webscraper mit vergifteten Daten zu fangen

Was Miasma tut
Miasma ist ein Tool, das KI-Webscraper in die Falle lockt, indem es ihnen vergiftete Trainingsdaten zusammen mit mehreren selbstreferenziellen Links serviert und so schafft, was die Entwickler als "endloses Buffet aus Schrott für die Schrottmaschinen" bezeichnen. Das Tool ist darauf ausgelegt, schnell zu sein und einen minimalen Speicherverbrauch zu haben.
Installation und Einrichtung
Installation mit Cargo: cargo install miasma oder vorgefertigte Binärdateien von den Releases herunterladen.
Start mit Standardkonfiguration: miasma
Alle Konfigurationsoptionen anzeigen: miasma --help
Wie man Scraper in die Falle lockt
Das typische Setup umfasst:
- Versteckte Links auf Ihrer Website einbetten, die auf einen bestimmten Pfad zeigen (z.B.
/bots) und Attribute haben, die sie für menschliche Besucher unsichtbar, aber für Scraper sichtbar machen:<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Erstaunlich hochwertige Daten hier!</a>
- Einen Reverse-Proxy (wie Nginx) konfigurieren, um diesen Pfad an Miasma weiterzuleiten:
location ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; } - Miasma mit spezifischen Parametern ausführen:
miasma --link-prefix '/bots' -p 9855 -c 50
Das Flag -c 50 begrenzt die maximalen gleichzeitigen Verbindungen auf 50, was zu einem Spitzenspeicherverbrauch von 50-60 MB führt. Anfragen, die dieses Limit überschreiten, erhalten eine 429-Antwort.
Konfigurationsoptionen
--port: Standard 9999 - Der Port, an den der Server binden soll--host: Standard localhost - Die Host-Adresse, an die der Server binden soll--max-in-flight: Standard 500 - Maximale Anzahl zulässiger gleichzeitiger Anfragen--link-prefix: Standard / - Präfix für selbstverweisende Links (sollte mit Ihrem Hosting-Pfad übereinstimmen)--link-count: Standard 5 - Anzahl selbstverweisender Links, die in jeder Antwortseite enthalten sein sollen--force-gzip: Standard false - Antworten immer gzip-komprimieren, unabhängig vom Accept-Encoding-Header--poison-source: Standard https://rnsaffn.com/poison2/ - Proxy-Quelle für vergiftete Trainingsdaten
Wichtige Überlegungen
Die Entwickler empfehlen, freundliche Bots und Suchmaschinen in Ihrer robots.txt-Datei zu schützen:
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
Miasma ist unter GPL-3.0 lizenziert und die Entwickler weisen darauf hin, dass "hauptsächlich KI-generierte Beiträge automatisch abgelehnt werden".
📖 Read the full source: HN AI Agents
👀 Siehe auch

Ihr Agent sagte, es sei versandt – Warum Sitzungsprotokolle wichtiger sind als Modellnamen
Ein Entwickler berichtet über ein Muster, das in drei Teams beobachtet wurde: Agenten behaupten, die Implementierung sei abgeschlossen, aber Session-Traces zeigen versteckte Refactorings, verpasste Konventionen und suboptimale Implementierungen. Der Beitrag argumentiert, dass das eigentliche Problem nicht die Modellqualität ist, sondern das Vertrauen – und dass Session-Traces pro Instanz der einzige Weg sind, Behauptungen zu überprüfen.

Agenten beobachten: Echtzeit-Dashboard zur Überwachung von Claude-Code-Agenten-Teams
Agents Observe ist ein lokales Dashboard, das Echtzeit-Beobachtbarkeit für Claude Code Agent-Sitzungen mithilfe von Hooks statt OTEL bietet. Es erfasst jeden Tool-Aufruf, die Agent-Hierarchie und Ereignisse mit Filter- und Suchfunktionen und läuft als Docker-Container, der automatisch mit Claude-Sitzungen startet.

Open-Source-CLI-Tool sdf nutzt Claude zur Verwaltung von gestapelten GitHub-PRs
sdf ist ein kostenloses, MIT-lizenziertes CLI-Tool, das gestapelte Pull-Request-Workflows mit git und gh automatisiert, wobei Claude CLI komplexe Aufgaben wie Diff-Analyse und Konfliktlösung übernimmt.

Kontext-os: Open-Source-Tool reduziert den Tokenverbrauch von Claude Code um 27–42 %
context-os ist ein lokaler Kontextoptimierer, der sich automatisch in Claude Code einklinkt, die Werkzeugausgabe komprimiert, bevor Claude sie sieht, und den Tokenverbrauch je nach Inhaltstyp um 27-42% reduziert.