Miasma : Un outil pour piéger les robots d'indexation d'IA avec des données empoisonnées

Ce que fait Miasma
Miasma est un outil conçu pour piéger les aspirateurs web d'IA en leur servant des données d'entraînement empoisonnées accompagnées de multiples liens autoréférentiels, créant ce que les développeurs appellent un "buffet infini de bouillie pour les machines à bouillie". L'outil est construit pour être rapide avec une empreinte mémoire minimale.
Installation et configuration
Installez avec Cargo : cargo install miasma ou téléchargez les binaires pré-construits depuis les versions.
Démarrez avec la configuration par défaut : miasma
Voir toutes les options de configuration : miasma --help
Comment piéger les aspirateurs
La configuration typique implique :
- Intégrer des liens cachés sur votre site pointant vers un chemin spécifique (par exemple,
/bots) avec des attributs qui les rendent invisibles aux visiteurs humains mais visibles aux aspirateurs :<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Des données de haute qualité incroyables ici !</a>
- Configurer un proxy inverse (comme Nginx) pour acheminer ce chemin vers Miasma :
location ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; } - Exécuter Miasma avec des paramètres spécifiques :
miasma --link-prefix '/bots' -p 9855 -c 50
Le drapeau -c 50 limite les connexions simultanées maximales à 50, ce qui entraîne une utilisation de mémoire de pointe de 50-60 Mo. Les requêtes dépassant cette limite reçoivent une réponse 429.
Options de configuration
--port: Par défaut 9999 - Le port sur lequel le serveur doit se lier--host: Par défaut localhost - L'adresse hôte sur laquelle le serveur doit se lier--max-in-flight: Par défaut 500 - Nombre maximum de requêtes simultanées autorisées--link-prefix: Par défaut / - Préfixe pour les liens auto-dirigeants (doit correspondre à votre chemin d'hébergement)--link-count: Par défaut 5 - Nombre de liens auto-dirigeants à inclure dans chaque page de réponse--force-gzip: Par défaut false - Toujours compresser les réponses en gzip indépendamment de l'en-tête Accept-Encoding--poison-source: Par défaut https://rnsaffn.com/poison2/ - Source proxy pour les données d'entraînement empoisonnées
Considérations importantes
Les développeurs recommandent de protéger les robots amicaux et les moteurs de recherche dans votre fichier robots.txt :
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
Miasma est sous licence GPL-3.0 et les développeurs notent que "les contributions principalement générées par l'IA seront automatiquement rejetées".
📖 Read the full source: HN AI Agents
👀 See Also

Agents de codage parallèles avec tmux et spécifications en Markdown
Manuel Schipper décrit un système pour exécuter 4 à 8 agents de codage en parallèle en utilisant tmux, des fichiers Markdown, des alias bash et six commandes slash. La configuration utilise des spécifications Feature Design (FD) en Markdown suivies à travers un cycle de vie en 8 étapes.

Utilyze : Moniteur GPU Open Source qui mesure le débit de calcul réel, pas seulement l'activité du noyau
Utilyze échantillonne les compteurs de performance matériels pour rapporter le débit de calcul et de mémoire par rapport aux limites théoriques, révélant que des tableaux de bord affichant une utilisation à 100 % peuvent n'atteindre que 1 à 10 % de débit réel.

Agent Kernel : Trois Fichiers Markdown pour des Agents IA avec État
Agent Kernel fournit trois fichiers markdown qui permettent un comportement avec état dans les agents de codage IA sans bases de données ni frameworks personnalisés. Il fonctionne avec OpenCode, Claude Code, Codex, Cursor, Windsurf et des outils similaires.

Kreuzberg v4.7.0 ajoute l'intelligence du code pour 248 langues et une extraction markdown améliorée.
Kreuzberg v4.7.0, une bibliothèque d'intelligence documentaire basée sur Rust, prend désormais en charge l'extraction de code pour 248 formats via tree-sitter et a considérablement amélioré la qualité du markdown avec des scores F1 structurels supérieurs à 80 % sur 23 formats.