Blocage Internet Archive : Menace sur 1 Billion de Pages Web

Ce qui se passe avec l'accès à l'Internet Archive

The New York Times a commencé à bloquer l'Internet Archive pour l'exploration de son site web en utilisant des mesures techniques qui vont au-delà des règles traditionnelles du fichier robots.txt. D'autres journaux, dont The Guardian, semblent suivre cette approche. Ce blocage risque de couper l'accès aux archives historiques du web sur lesquelles les journalistes, les chercheurs et les tribunaux se sont appuyés pendant des décennies.

Pourquoi cela compte pour la préservation historique

L'Internet Archive exploite la Wayback Machine, qui contient plus d'un billion de pages web archivées. Depuis près de trente ans, elle préserve les sites d'actualités tels qu'ils sont apparus à l'origine en ligne. Lorsque des articles sont modifiés, changés ou supprimés, l'Archive devient souvent la seule source pour voir ces versions originales. Le blocage de ces robots d'exploration par les grands éditeurs signifie que les archives historiques commencent à disparaître.

Le lien avec l'IA et le contexte juridique

Les éditeurs citent des préoccupations concernant le scraping de contenu d'actualité par des entreprises d'IA comme motivation pour bloquer l'Archive. The New York Times et d'autres poursuivent en justice des entreprises d'IA pour savoir si l'entraînement de modèles sur du matériel protégé par le droit d'auteur viole la loi. Cependant, l'Internet Archive ne construit pas de systèmes d'IA commerciaux – elle préserve des archives historiques. L'article soutient que bloquer les archivistes à but non lucratif est une mauvaise réponse aux préoccupations concernant l'entraînement de l'IA.

D'un point de vue juridique, rendre du matériel consultable est un usage équitable établi. Les tribunaux ont reconnu que la construction d'index consultables nécessite souvent de faire des copies du matériel sous-jacent. Lorsque Google a copié des livres entiers pour créer une base de données consultable, les tribunaux ont reconnu cela comme un usage équitable car cela servait l'objectif transformateur de permettre la découverte et la recherche. Les mêmes principes s'appliquent à l'archivage web.

Impact pratique sur la recherche et le journalisme

Wikipédia à lui seul renvoie à plus de 2,6 millions d'articles de presse préservés à l'Internet Archive, couvrant 249 langues. D'innombrables blogueurs, chercheurs et journalistes dépendent de l'Archive comme un enregistrement stable et fiable de ce qui a été publié en ligne. Si les grands éditeurs continuent de bloquer l'accès, les futurs chercheurs pourraient constater que des portions significatives de l'histoire du web ont disparu.

📖 Read the full source: HN AI Agents

La Menace de Blocage de l'Internet Archive Met en Péril la Préservation de l'Histoire du Web

Ce qui se passe avec l'accès à l'Internet Archive

Pourquoi cela compte pour la préservation historique

Le lien avec l'IA et le contexte juridique

Impact pratique sur la recherche et le journalisme

👀 See Also

DiLoCo Découplé : Formation Distribuée Résiliente entre Centres de Données avec Faible Bande Passante

Réunion du DoD avec Anthropic et les laboratoires d'IA chinois distillant Claude

Claude Code v2.1.118 ajoute le mode visuel Vim, des thèmes personnalisés et des améliorations MCP.

La Cour suprême des États-Unis refuse d'examiner l'affaire de droit d'auteur sur l'IA, laissant intacte la décision de la juridiction inférieure.