인터넷 아카이브 차단 위협으로 웹 역사 보존이 위태롭다

인터넷 아카이브 접근에 무슨 일이 일어나고 있나
뉴욕 타임스는 기존의 robots.txt 규칙을 넘어선 기술적 조치로 인터넷 아카이브가 자신의 웹사이트를 크롤링하는 것을 차단하기 시작했습니다. 가디언을 포함한 다른 신문사들도 이 방식을 따르는 것으로 보입니다. 이 차단은 수십 년 동안 언론인, 연구원, 법원이 의존해 온 역사적 웹 기록에 대한 접근을 차단할 위험이 있습니다.
역사적 보존을 위해 이것이 중요한 이유
인터넷 아카이브는 1조 개 이상의 아카이브된 웹 페이지를 포함하는 웨이백 머신을 운영합니다. 거의 30년 동안 이 아카이브는 뉴스 사이트가 온라인에 처음 등장했던 모습 그대로 보존해 왔습니다. 기사가 편집되거나 변경되거나 삭제될 때, 아카이브는 종종 원본 버전을 볼 수 있는 유일한 출처가 됩니다. 주요 출판사들이 이 크롤러를 차단한다는 것은 역사적 기록이 사라지기 시작한다는 것을 의미합니다.
AI 연결과 법적 맥락
출판사들은 AI 기업들이 뉴스 콘텐츠를 긁어가는 것에 대한 우려를 아카이브 차단의 동기로 언급하고 있습니다. 뉴욕 타임스를 비롯한 다른 출판사들은 저작권이 있는 자료로 모델을 훈련시키는 것이 법을 위반하는지에 대해 AI 기업들을 상대로 소송을 제기하고 있습니다. 그러나 인터넷 아카이브는 상업적 AI 시스템을 구축하는 것이 아니라 역사적 기록을 보존하고 있습니다. 이 기사는 비영리 기록 보관인을 차단하는 것이 AI 훈련 우려에 대한 잘못된 대응이라고 주장합니다.
법적 관점에서, 자료를 검색 가능하게 만드는 것은 확립된 공정 사용입니다. 법원은 검색 가능한 색인을 구축하는 것이 종종 기본 자료의 복사본을 필요로 한다는 점을 인정해 왔습니다. 구글이 검색 가능한 데이터베이스를 만들기 위해 전체 책을 복사했을 때, 법원은 이것이 발견과 연구를 가능하게 하는 변형적 목적을 제공했기 때문에 공정 사용으로 인정했습니다. 같은 원칙이 웹 아카이빙에도 적용됩니다.
연구와 언론에 대한 실질적 영향
위키백과만 해도 인터넷 아카이브에 보존된 249개 언어에 걸친 260만 개 이상의 뉴스 기사에 링크되어 있습니다. 수많은 블로거, 연구원, 기자들은 온라인에 게시된 내용의 안정적이고 권위 있는 기록으로 아카이브에 의존하고 있습니다. 주요 출판사들이 접근을 계속 차단한다면, 미래의 연구원들은 웹 역사의 상당 부분이 사라졌음을 발견할 수 있습니다.
📖 Read the full source: HN AI Agents
👀 See Also

DeepSeek V4 Flash 비용 분석: 캐시 적중률과 가격 비율 설명
DeepSeek V4 Flash는 Opus 4.7 대비 에이전트 태스크당 비용이 0.0066배로, 97%의 캐시 적중률과 0.02의 캐시 읽기-쓰기 가격 비율에 힘입은 결과입니다.

SenseNova-U1-8B-MoT: NEO-Unify 아키텍처를 갖춘 오픈 소스 네이티브 멀티모달 모델
센스노바가 센스노바-U1-8B-MoT를 출시했습니다. 이 모델은 시각 인코더와 VAE를 모두 제거하고 NEO-Unify 아키텍처를 사용하여 통합된 이해, 추론 및 생성을 가능하게 하는 네이티브 멀티모달 모델입니다. 텍스트-인포그래픽, 이미지 편집 및 인터리브 텍스트-이미지 생성에 탁월합니다.

로봇공학의 세 가지 역법칙: AI 사용을 위한 인간 지침
Susam Pal은 인간을 위한 세 가지 역로봇공학 법칙을 제안합니다: AI를 의인화하지 말고, 그 출력을 맹신하지 말며, 전적인 책임을 유지하라는 것입니다. 생성형 AI에 대한 과도한 의존을 경계하는 실용적인 경고입니다.

Qwen 3.6-35B-A3B KV 캐시 벤치마크: M5 Max에서 f16 vs q8_0 vs Turbo3 vs Turbo4, 최대 1M 컨텍스트
M5 Max에서 TheTom의 TurboQuant Metal 포크 벤치마크 결과, f16과 q8_0은 256K를 넘어가면 OOM이 발생하는 반면, turbo3는 1M 컨텍스트에서 6.5 tok/s의 디코드 속도를 기록했습니다. 프리필과 디코드 분할에서는 긴 컨텍스트에서 프리필은 turbo3, 디코드는 turbo4가 우세했습니다.