Miasma: Uma ferramenta para capturar raspadores de IA da web com dados envenenados

O que o Miasma faz
Miasma é uma ferramenta projetada para prender raspadores de IA, servindo a eles dados de treinamento envenenados juntamente com múltiplos links autorreferenciais, criando o que os desenvolvedores chamam de "buffet infinito de lixo para as máquinas de lixo". A ferramenta foi construída para ser rápida com uma pegada de memória mínima.
Instalação e configuração
Instale com Cargo: cargo install miasma ou baixe binários pré-compilados das releases.
Inicie com a configuração padrão: miasma
Veja todas as opções de configuração: miasma --help
Como prender raspadores
A configuração típica envolve:
- Incorporar links ocultos no seu site apontando para um caminho específico (ex.:
/bots) com atributos que os tornam invisíveis para visitantes humanos, mas visíveis para raspadores:<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Dados de alta qualidade incríveis aqui!</a>
- Configurar um proxy reverso (como Nginx) para rotear esse caminho para o Miasma:
location ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; } - Executar o Miasma com parâmetros específicos:
miasma --link-prefix '/bots' -p 9855 -c 50
A flag -c 50 limita as conexões simultâneas máximas para 50, o que resulta em um uso de memória de pico de 50-60 MB. Solicitações que excedam esse limite recebem uma resposta 429.
Opções de configuração
--port: Padrão 9999 - A porta à qual o servidor deve se vincular--host: Padrão localhost - O endereço de host ao qual o servidor deve se vincular--max-in-flight: Padrão 500 - Número máximo de solicitações simultâneas permitidas--link-prefix: Padrão / - Prefixo para links autorreferenciais (deve corresponder ao seu caminho de hospedagem)--link-count: Padrão 5 - Número de links autorreferenciais a incluir em cada página de resposta--force-gzip: Padrão false - Sempre compactar respostas com gzip, independentemente do cabeçalho Accept-Encoding--poison-source: Padrão https://rnsaffn.com/poison2/ - Fonte proxy para dados de treinamento envenenados
Considerações importantes
Os desenvolvedores recomendam proteger bots amigáveis e mecanismos de busca no seu arquivo robots.txt:
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
Miasma está licenciado sob GPL-3.0 e os desenvolvedores observam que "contribuições geradas principalmente por IA serão automaticamente rejeitadas".
📖 Read the full source: HN AI Agents
👀 See Also

Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST
Beagle é um sistema experimental de gerenciamento de código-fonte que armazena árvores sintáticas abstratas em vez de blobs binários, usando um formato de dados chamado BASON, semelhante a CRDT, e armazenamento de apoio com bancos de dados chave-valor como RocksDB.

Sistema de memória persistente de código aberto para Claude Code resolve a perda de contexto entre sessões
Um desenvolvedor criou um sistema de memória baseado em arquivos para o Claude Code que captura automaticamente o contexto do projeto sem plugins ou chaves de API. Ele usa transcrições de conversas, um arquivo de caixa de entrada e tarefas cron noturnas para manter uma memória persistente entre sessões.

Eä: Um Compilador SIMD para Python Escrito em Rust
Um desenvolvedor criou o Eä, um compilador para kernels SIMD em aproximadamente 12 mil linhas de Rust que gera bibliotecas compartilhadas e wrappers Python a partir de arquivos .ea, alcançando acelerações de 6,6× em relação ao NumPy sem ctypes ou sistemas de build.

Solução de Problemas de Acesso ao E-mail e Google Drive para Agentes de IA
Configurar acesso a e-mail e Google Drive para bots de IA na AWS pode desencadear bloqueios de conta. Aqui está uma solução usando Gmail e domínios do Workspace.