인터넷 아카이브 차단 위협: 1조개 웹 페이지 역사 보존 위기

인터넷 아카이브 접근에 무슨 일이 일어나고 있나

뉴욕 타임스는 기존의 robots.txt 규칙을 넘어선 기술적 조치로 인터넷 아카이브가 자신의 웹사이트를 크롤링하는 것을 차단하기 시작했습니다. 가디언을 포함한 다른 신문사들도 이 방식을 따르는 것으로 보입니다. 이 차단은 수십 년 동안 언론인, 연구원, 법원이 의존해 온 역사적 웹 기록에 대한 접근을 차단할 위험이 있습니다.

역사적 보존을 위해 이것이 중요한 이유

인터넷 아카이브는 1조 개 이상의 아카이브된 웹 페이지를 포함하는 웨이백 머신을 운영합니다. 거의 30년 동안 이 아카이브는 뉴스 사이트가 온라인에 처음 등장했던 모습 그대로 보존해 왔습니다. 기사가 편집되거나 변경되거나 삭제될 때, 아카이브는 종종 원본 버전을 볼 수 있는 유일한 출처가 됩니다. 주요 출판사들이 이 크롤러를 차단한다는 것은 역사적 기록이 사라지기 시작한다는 것을 의미합니다.

AI 연결과 법적 맥락

출판사들은 AI 기업들이 뉴스 콘텐츠를 긁어가는 것에 대한 우려를 아카이브 차단의 동기로 언급하고 있습니다. 뉴욕 타임스를 비롯한 다른 출판사들은 저작권이 있는 자료로 모델을 훈련시키는 것이 법을 위반하는지에 대해 AI 기업들을 상대로 소송을 제기하고 있습니다. 그러나 인터넷 아카이브는 상업적 AI 시스템을 구축하는 것이 아니라 역사적 기록을 보존하고 있습니다. 이 기사는 비영리 기록 보관인을 차단하는 것이 AI 훈련 우려에 대한 잘못된 대응이라고 주장합니다.

법적 관점에서, 자료를 검색 가능하게 만드는 것은 확립된 공정 사용입니다. 법원은 검색 가능한 색인을 구축하는 것이 종종 기본 자료의 복사본을 필요로 한다는 점을 인정해 왔습니다. 구글이 검색 가능한 데이터베이스를 만들기 위해 전체 책을 복사했을 때, 법원은 이것이 발견과 연구를 가능하게 하는 변형적 목적을 제공했기 때문에 공정 사용으로 인정했습니다. 같은 원칙이 웹 아카이빙에도 적용됩니다.

연구와 언론에 대한 실질적 영향

위키백과만 해도 인터넷 아카이브에 보존된 249개 언어에 걸친 260만 개 이상의 뉴스 기사에 링크되어 있습니다. 수많은 블로거, 연구원, 기자들은 온라인에 게시된 내용의 안정적이고 권위 있는 기록으로 아카이브에 의존하고 있습니다. 주요 출판사들이 접근을 계속 차단한다면, 미래의 연구원들은 웹 역사의 상당 부분이 사라졌음을 발견할 수 있습니다.

📖 Read the full source: HN AI Agents