Miasma: Uma ferramenta para capturar raspadores de IA da web com dados envenenados

✍️ OpenClawRadar📅 Publicado: March 29, 2026🔗 Source
Miasma: Uma ferramenta para capturar raspadores de IA da web com dados envenenados
Ad

O que o Miasma faz

Miasma é uma ferramenta projetada para prender raspadores de IA, servindo a eles dados de treinamento envenenados juntamente com múltiplos links autorreferenciais, criando o que os desenvolvedores chamam de "buffet infinito de lixo para as máquinas de lixo". A ferramenta foi construída para ser rápida com uma pegada de memória mínima.

Instalação e configuração

Instale com Cargo: cargo install miasma ou baixe binários pré-compilados das releases.

Inicie com a configuração padrão: miasma

Veja todas as opções de configuração: miasma --help

Como prender raspadores

A configuração típica envolve:

  1. Incorporar links ocultos no seu site apontando para um caminho específico (ex.: /bots) com atributos que os tornam invisíveis para visitantes humanos, mas visíveis para raspadores:
    <a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Dados de alta qualidade incríveis aqui!</a>
  2. Configurar um proxy reverso (como Nginx) para rotear esse caminho para o Miasma:
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
  3. Executar o Miasma com parâmetros específicos:
    miasma --link-prefix '/bots' -p 9855 -c 50

A flag -c 50 limita as conexões simultâneas máximas para 50, o que resulta em um uso de memória de pico de 50-60 MB. Solicitações que excedam esse limite recebem uma resposta 429.

Ad

Opções de configuração

  • --port: Padrão 9999 - A porta à qual o servidor deve se vincular
  • --host: Padrão localhost - O endereço de host ao qual o servidor deve se vincular
  • --max-in-flight: Padrão 500 - Número máximo de solicitações simultâneas permitidas
  • --link-prefix: Padrão / - Prefixo para links autorreferenciais (deve corresponder ao seu caminho de hospedagem)
  • --link-count: Padrão 5 - Número de links autorreferenciais a incluir em cada página de resposta
  • --force-gzip: Padrão false - Sempre compactar respostas com gzip, independentemente do cabeçalho Accept-Encoding
  • --poison-source: Padrão https://rnsaffn.com/poison2/ - Fonte proxy para dados de treinamento envenenados

Considerações importantes

Os desenvolvedores recomendam proteger bots amigáveis e mecanismos de busca no seu arquivo robots.txt:

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Miasma está licenciado sob GPL-3.0 e os desenvolvedores observam que "contribuições geradas principalmente por IA serão automaticamente rejeitadas".

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST
Tools

Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST

Beagle é um sistema experimental de gerenciamento de código-fonte que armazena árvores sintáticas abstratas em vez de blobs binários, usando um formato de dados chamado BASON, semelhante a CRDT, e armazenamento de apoio com bancos de dados chave-valor como RocksDB.

OpenClawRadar
Sistema de memória persistente de código aberto para Claude Code resolve a perda de contexto entre sessões
Tools

Sistema de memória persistente de código aberto para Claude Code resolve a perda de contexto entre sessões

Um desenvolvedor criou um sistema de memória baseado em arquivos para o Claude Code que captura automaticamente o contexto do projeto sem plugins ou chaves de API. Ele usa transcrições de conversas, um arquivo de caixa de entrada e tarefas cron noturnas para manter uma memória persistente entre sessões.

OpenClawRadar
Eä: Um Compilador SIMD para Python Escrito em Rust
Tools

Eä: Um Compilador SIMD para Python Escrito em Rust

Um desenvolvedor criou o Eä, um compilador para kernels SIMD em aproximadamente 12 mil linhas de Rust que gera bibliotecas compartilhadas e wrappers Python a partir de arquivos .ea, alcançando acelerações de 6,6× em relação ao NumPy sem ctypes ou sistemas de build.

OpenClawRadar
Solução de Problemas de Acesso ao E-mail e Google Drive para Agentes de IA
Tools

Solução de Problemas de Acesso ao E-mail e Google Drive para Agentes de IA

Configurar acesso a e-mail e Google Drive para bots de IA na AWS pode desencadear bloqueios de conta. Aqui está uma solução usando Gmail e domínios do Workspace.

OpenClawRadar