미아즈마: AI 웹 스크레이퍼를 독성 데이터로 포획하는 도구

미아즈마의 기능
미아즈마는 AI 웹 스크레이퍼를 함정에 빠뜨리기 위해 중독된 훈련 데이터와 여러 개의 자기 참조 링크를 제공하도록 설계된 도구로, 개발자들이 "슬롭 머신을 위한 끝없는 슬롭 뷔페"라고 부르는 상황을 만듭니다. 이 도구는 최소한의 메모리 사용량으로 빠르게 실행되도록 구축되었습니다.
설치 및 설정
Cargo로 설치: cargo install miasma 또는 릴리스에서 미리 빌드된 바이너리를 다운로드하세요.
기본 구성으로 시작: miasma
모든 구성 옵션 보기: miasma --help
스크레이퍼를 함정에 빠뜨리는 방법
일반적인 설정은 다음과 같습니다:
- 사이트에 특정 경로(예:
/bots)를 가리키는 숨겨진 링크를 삽입하여 인간 방문자에게는 보이지 않지만 스크레이퍼에게는 보이도록 속성을 설정합니다:<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">놀라운 고품질 데이터가 여기에 있습니다!</a>
- 해당 경로를 미아즈마로 라우팅하도록 리버스 프록시(예: Nginx)를 구성합니다:
location ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; } - 특정 매개변수로 미아즈마를 실행합니다:
miasma --link-prefix '/bots' -p 9855 -c 50
-c 50 플래그는 최대 동시 연결 수를 50개로 제한하며, 이는 50-60MB의 최대 메모리 사용량을 초래합니다. 이 제한을 초과하는 요청은 429 응답을 받습니다.
구성 옵션
--port: 기본값 9999 - 서버가 바인딩할 포트--host: 기본값 localhost - 서버가 바인딩할 호스트 주소--max-in-flight: 기본값 500 - 허용 가능한 최대 동시 요청 수--link-prefix: 기본값 / - 자기 지시 링크의 접두사(호스팅 경로와 일치해야 함)--link-count: 기본값 5 - 각 응답 페이지에 포함할 자기 지시 링크 수--force-gzip: 기본값 false - Accept-Encoding 헤더와 관계없이 항상 응답을 gzip으로 압축--poison-source: 기본값 https://rnsaffn.com/poison2/ - 중독된 훈련 데이터를 위한 프록시 소스
중요 고려사항
개발자들은 robots.txt 파일에서 우호적인 봇과 검색 엔진을 보호할 것을 권장합니다:
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
미아즈마는 GPL-3.0 라이선스로 제공되며, 개발자들은 "주로 AI가 생성한 기여는 자동으로 거부될 것"이라고 언급했습니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

M5 Max에서 Flash-MOE 벤치마크: Qwen3.5-397B로 12.99 토큰/초
3970억 파라미터 규모의 Qwen3.5 모델을 MacBook Pro M5 Max(128GB RAM)에서 로컬로 실행한 벤치마크 결과, 4비트 양자화와 cache-io-split 4 설정으로 초당 12.99 토큰을 달성했으며, 이는 원본 48GB 벤치마크보다 세 배 빠른 속도입니다.

Engram v1.0.0: 로컬 LLM을 위한 지식 그래프 기반 영구 메모리
Engram은 지식 그래프 시스템을 통해 로컬 LLM에 지속적인 메모리를 제공하는 단일 바이너리입니다. Claude Code, Cursor, Windsurf와의 통합을 위한 MCP 서버를 포함하며, 모든 데이터를 단일 .brain 파일에 저장하고 완전히 오프라인에서 실행됩니다.

OpenClaw 스킬 팩: 우분투에서 실제 자율 운영을 위한 2,500개 이상의 명령어 세트
OpenClaw AI 에이전트를 위한 새로운 스킬 패키지는 Ubuntu 환경에서 Docker 관리, 네트워크 구성, CVE 대응 및 시스템 자동화와 같은 DevOps 작업을 위한 2,500개 이상의 실행 스킬을 도입합니다.

피코클로, F1 AI 에이전트 구축 실패로 API 크레딧 20달러 소진
개발자가 라즈베리 파이 제로 2W에서 PicoClaw를 사용해 F1 정보 봇을 구축하려 했으나, 해당 도구가 버전 11로 기본 설정되어 환각적인 파이썬 코드를 생성했고, 작동하는 솔루션을 만들어내지 못한 채 DeepSeek API 크레딧 20달러를 소모했습니다.