インターネット・アーカイブのブロックはウェブの歴史保存を脅かす

インターネットアーカイブへのアクセスで起きていること
ニューヨーク・タイムズは、従来のrobots.txtルールを超えた技術的手段を使用して、インターネットアーカイブによる自社ウェブサイトのクロールをブロックし始めました。ガーディアンを含む他の新聞社もこの手法に追随しているようです。このブロックにより、ジャーナリスト、研究者、裁判所が数十年にわたって依存してきた歴史的なウェブ記録へのアクセスが断たれるリスクがあります。
歴史的保存における重要性
インターネットアーカイブは、1兆以上のアーカイブ済みウェブページを含むWayback Machineを運営しています。約30年にわたり、ニュースサイトをオンライン上に元々表示されていた状態で保存してきました。記事が編集、変更、削除されると、アーカイブはしばしばそれらのオリジナル版を見る唯一の情報源となります。主要出版社がこれらのクローラーをブロックすることは、歴史的記録が消え始めることを意味します。
AIとの関連性と法的文脈
出版社は、AI企業によるニュースコンテンツのスクレイピングへの懸念を、アーカイブをブロックする動機として挙げています。ニューヨーク・タイムズ他は、著作権保護素材でのモデル訓練が法律違反か否かについてAI企業を訴えています。しかし、インターネットアーカイブは商用AIシステムを構築しているのではなく、歴史的記録を保存しています。本記事は、非営利のアーキビストをブロックすることは、AI訓練への懸念に対する誤った対応であると論じています。
法的観点から、素材を検索可能にすることは確立されたフェアユースです。裁判所は、検索可能な索引を構築するには、多くの場合、基盤となる素材のコピーを作成する必要があることを認めています。グーグルが検索可能なデータベースを作成するために書籍全体をコピーした際、裁判所はこれが発見と研究を可能にする変革的な目的に役立つため、フェアユースであると認めました。同じ原則がウェブアーカイビングにも適用されます。
研究とジャーナリズムへの実用的影響
ウィキペディアだけでも、インターネットアーカイブに保存された260万以上のニュース記事にリンクしており、249言語に及びます。無数のブロガー、研究者、レポーターが、オンラインで公開された内容の安定した信頼できる記録としてアーカイブに依存しています。主要出版社がアクセスブロックを続けるなら、将来の研究者はウェブ史の重要な部分が消失していることに気づくかもしれません。
📖 Read the full source: HN AI Agents
👀 See Also

Claude Opus 4.6の完全なシステムプロンプトがGitHubで流出
Claude Opus 4.6の完全なシステムプロンプトがGitHubで公開され、Anthropicの内部指示が明らかになりました。

CEOによる最近の調査では、AIが生産性と雇用に与える影響は最小限であると報告されています。
6,000人の経営幹部を対象とした調査によると、90%が過去3年間でAIが雇用や生産性に影響を与えていないと報告し、AIの平均使用時間は週1.5時間でした。経済学者はこれを、1980年代のIT時代におけるソローの生産性パラドックスと比較しています。

Claude AIは、企業向けカスタマイズと新規コネクターを備えたCoworkプラグインのアップデートを発表しました。
Claude AIはCoworkプラグインのアップデートをリリースし、企業管理者がプライベートなプラグインマーケットプレイスを作成し、Google Workspace、Docusign、Apolloなどのツールへのコネクターを追加できるようになりました。新しい研究プレビューでは、ClaudeがExcelとPowerPointを横断して作業し、エンドツーエンドの分析とプレゼンテーション作成を行えるようになります。

「AIコーディングアシスタント」を再考する:ソフトウェアプリンターのメタファーの提案
Redditの投稿は、現在の「アシスタント」というメタファーがAI開発ツールを制限していると主張し、仕様からデプロイされメンテナンスされるアプリケーションを出力する「ソフトウェアプリンター」を提案しています。