Internet-Archive-Sperrung gefährdet die Bewahrung der Web-Geschichte

Was mit dem Zugang zum Internet Archive passiert
The New York Times hat begonnen, das Internet Archive mit technischen Maßnahmen vom Crawlen ihrer Website auszuschließen, die über traditionelle robots.txt-Regeln hinausgehen. Andere Zeitungen wie The Guardian scheinen diesem Ansatz zu folgen. Diese Blockade gefährdet den Zugang zu historischen Webaufzeichnungen, auf die Journalisten, Forscher und Gerichte seit Jahrzehnten angewiesen sind.
Warum das für die historische Bewahrung wichtig ist
Das Internet Archive betreibt die Wayback Machine, die mehr als eine Billion archivierte Webseiten enthält. Seit fast dreißig Jahren bewahrt es Nachrichtenseiten so, wie sie ursprünglich online erschienen sind. Wenn Artikel bearbeitet, geändert oder entfernt werden, wird das Archiv oft zur einzigen Quelle, um diese Originalversionen zu sehen. Wenn große Verlage diese Crawler blockieren, beginnt der historische Bestand zu verschwinden.
Der KI-Zusammenhang und der rechtliche Kontext
Verlage nennen Bedenken hinsichtlich KI-Unternehmen, die Nachrichteninhalte abschöpfen, als Motivation für die Blockade des Archivs. The New York Times und andere verklagen KI-Unternehmen wegen der Frage, ob das Trainieren von Modellen mit urheberrechtlich geschütztem Material gegen das Gesetz verstößt. Das Internet Archive baut jedoch keine kommerziellen KI-Systeme auf – es bewahrt historische Aufzeichnungen. Der Artikel argumentiert, dass die Blockade gemeinnütziger Archivare die falsche Reaktion auf KI-Trainingsbedenken ist.
Aus rechtlicher Sicht ist die Durchsuchbarmachung von Material als Fair Use anerkannt. Gerichte haben anerkannt, dass der Aufbau durchsuchbarer Indizes oft das Erstellen von Kopien des zugrundeliegenden Materials erfordert. Als Google ganze Bücher kopierte, um eine durchsuchbare Datenbank zu erstellen, erkannten Gerichte dies als Fair Use an, da es dem transformativen Zweck diente, Entdeckungen und Forschung zu ermöglichen. Dieselben Prinzipien gelten für die Webarchivierung.
Praktische Auswirkungen auf Forschung und Journalismus
Wikipedia allein verlinkt auf mehr als 2,6 Millionen Nachrichtenartikel, die im Internet Archive erhalten sind und 249 Sprachen umfassen. Unzählige Blogger, Forscher und Reporter sind auf das Archiv als stabile, autoritative Aufzeichnung dessen angewiesen, was online veröffentlicht wurde. Wenn große Verlage den Zugang weiter blockieren, könnten zukünftige Forscher feststellen, dass bedeutende Teile der Webgeschichte verschwunden sind.
📖 Read the full source: HN AI Agents
👀 Siehe auch

VS Code 1.117.0 fügt Copilot automatisch als Co-Autor bei Commits hinzu – Das löst es aus
VS Code 1.117.0 hängt bei Verwendung von Inline-Vorschlägen ‚Co-authored-by: Copilot <[email protected]>‘ an Commits an – sogar für ein einzelnes Komma. Die Funktion ist Opt-out und nicht klar kommuniziert.

Meta OpenEnv AI-Hackathon in Indien bietet Direktinterviews und einen Preisgeld von 30.000 US-Dollar
Meta veranstaltet Indiens erstes OpenEnv AI Hackathon in Zusammenarbeit mit Hugging Face und PyTorch, bei dem Entwickler Verstärkungslernumgebungen für KI-Agenten erstellen. Die besten Teams erhalten direkte Vorstellungsgespräche mit den KI-Teams von Meta und Hugging Face sowie einen Preispool von 30.000 US-Dollar.

OpenClaw-Ökosystemwachstum und Schlüsselakteure kartiert
Ein Community-Mitglied hat die rasante Expansion des OpenClaw-Ökosystems kartiert und verzeichnete innerhalb von 60 Tagen nach dem Start über 230.000 GitHub-Sterne, über 116.000 Discord-Mitglieder sowie aufkommende Unternehmen in den Bereichen Managed Hosting, LLM-Routing und Sicherheitsschichten.

KI-Abo-Preiskollaps: Warum Ihre Unternehmensrechnung bald 10x höher ist
KI-Labore wie OpenAI, Anthropic und Microsoft machen mit jedem Abonnement Verluste. Agentische Arbeitslasten haben das Pauschalpreismodell gesprengt – GitHub Copilot wechselt am 1. Juni 2026 zur nutzungsbasierten Abrechnung. Unternehmen, die auf subventionierte Preise gesetzt haben, steht eine Korrektur bevor.