Миазма: Инструмент для ловли веб-сканеров ИИ с помощью отравленных данных

Что делает Miasma
Miasma — это инструмент, предназначенный для ловли веб-скраперов ИИ, предоставляя им отравленные обучающие данные вместе с множеством самоссылающихся ссылок, создавая то, что разработчики называют «бесконечным буфетом отходов для машин по переработке отходов». Инструмент создан для быстрой работы с минимальным потреблением памяти.
Установка и настройка
Установите через Cargo: cargo install miasma или скачайте готовые бинарные файлы из релизов.
Запустите с конфигурацией по умолчанию: miasma
Просмотрите все параметры конфигурации: miasma --help
Как ловить скраперов
Типичная настройка включает:
- Встраивание скрытых ссылок на вашем сайте, указывающих на определённый путь (например,
/bots), с атрибутами, которые делают их невидимыми для посетителей-людей, но видимыми для скраперов:<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Потрясающие высококачественные данные здесь!</a>
- Настройку обратного прокси (например, Nginx) для маршрутизации этого пути к Miasma:
location ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; } - Запуск Miasma с определёнными параметрами:
miasma --link-prefix '/bots' -p 9855 -c 50
Флаг -c 50 ограничивает максимальное количество одновременных подключений до 50, что приводит к пиковому использованию памяти 50–60 МБ. Запросы, превышающие этот лимит, получают ответ 429.
Параметры конфигурации
--port: По умолчанию 9999 — порт, к которому должен привязываться сервер--host: По умолчанию localhost — адрес хоста, к которому должен привязываться сервер--max-in-flight: По умолчанию 500 — максимальное допустимое количество одновременных запросов--link-prefix: По умолчанию / — префикс для самоссылающихся ссылок (должен соответствовать пути размещения)--link-count: По умолчанию 5 — количество самоссылающихся ссылок, включаемых на каждой странице ответа--force-gzip: По умолчанию false — всегда сжимать ответы gzip независимо от заголовка Accept-Encoding--poison-source: По умолчанию https://rnsaffn.com/poison2/ — прокси-источник для отравленных обучающих данных
Важные соображения
Разработчики рекомендуют защищать дружественных ботов и поисковые системы в вашем файле robots.txt:
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
Miasma лицензирован под GPL-3.0, и разработчики отмечают, что «в основном автоматически отклоняются вклады, сгенерированные ИИ».
📖 Прочитайте полный источник: HN AI Agents
👀 Смотрите также

LystBot: MCP-сервер для Claude для управления списками и задачами
LystBot — это приложение для управления списками с нативным сервером MCP, которое позволяет Claude напрямую взаимодействовать со списками покупок, задачами и списками для сборов. Создано в основном с помощью Claude Code, включает мобильное приложение на Flutter, REST API, CLI и открытый MCP-сервер на Node.js.

Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.
Автоматизированный конвейер протестировал 88 моделей GGUF на Mac Mini M4 с 16 ГБ оперативной памяти, определив 9 непригодных к использованию и 4 модели LFM2-8B-A1B MoE на границе Парето по скорости и качеству.

Навык Claude Code /council запускает промты параллельно на 4 моделях ИИ
Навык Claude Code под названием /council отправляет любой запрос одновременно в GPT, Claude, Gemini и Grok примерно за 7 секунд, а затем использует Gemini для синтеза лучшего ответа, выявляя конкретные улучшения от других моделей.

NGX-OS: Сетевая ОС, созданная для ИИ с интеграцией eBPF и MCP
NGX-OS — это сетевая операционная система, разработанная с нуля для интеграции с ИИ, использующая eBPF для телеметрии в реальном времени и MCP для прямого доступа LLM к данным о состоянии сети без промежуточных слоев.