インターネットアーカイブブロックがウェブ歴史保存に与える影響

インターネットアーカイブへのアクセスで起きていること

ニューヨーク・タイムズは、従来のrobots.txtルールを超えた技術的手段を使用して、インターネットアーカイブによる自社ウェブサイトのクロールをブロックし始めました。ガーディアンを含む他の新聞社もこの手法に追随しているようです。このブロックにより、ジャーナリスト、研究者、裁判所が数十年にわたって依存してきた歴史的なウェブ記録へのアクセスが断たれるリスクがあります。

歴史的保存における重要性

インターネットアーカイブは、1兆以上のアーカイブ済みウェブページを含むWayback Machineを運営しています。約30年にわたり、ニュースサイトをオンライン上に元々表示されていた状態で保存してきました。記事が編集、変更、削除されると、アーカイブはしばしばそれらのオリジナル版を見る唯一の情報源となります。主要出版社がこれらのクローラーをブロックすることは、歴史的記録が消え始めることを意味します。

AIとの関連性と法的文脈

出版社は、AI企業によるニュースコンテンツのスクレイピングへの懸念を、アーカイブをブロックする動機として挙げています。ニューヨーク・タイムズ他は、著作権保護素材でのモデル訓練が法律違反か否かについてAI企業を訴えています。しかし、インターネットアーカイブは商用AIシステムを構築しているのではなく、歴史的記録を保存しています。本記事は、非営利のアーキビストをブロックすることは、AI訓練への懸念に対する誤った対応であると論じています。

法的観点から、素材を検索可能にすることは確立されたフェアユースです。裁判所は、検索可能な索引を構築するには、多くの場合、基盤となる素材のコピーを作成する必要があることを認めています。グーグルが検索可能なデータベースを作成するために書籍全体をコピーした際、裁判所はこれが発見と研究を可能にする変革的な目的に役立つため、フェアユースであると認めました。同じ原則がウェブアーカイビングにも適用されます。

研究とジャーナリズムへの実用的影響

ウィキペディアだけでも、インターネットアーカイブに保存された260万以上のニュース記事にリンクしており、249言語に及びます。無数のブロガー、研究者、レポーターが、オンラインで公開された内容の安定した信頼できる記録としてアーカイブに依存しています。主要出版社がアクセスブロックを続けるなら、将来の研究者はウェブ史の重要な部分が消失していることに気づくかもしれません。

📖 Read the full source: HN AI Agents