1. Zum Inhalt springen
  2. Zur Hauptnavigation springen
  3. Zu weiteren Angeboten der DW springen

Internet-Archive: Unser digitales Gedächtnis ist bedroht

21. April 2026

Die "Wayback Machine" - Hüterin der digitalen Erinnerung - kämpft ums Überleben. Immer mehr Medienhäuser verweigern dem Web-Archiv die Archivierung ihrer Inhalte - und schaden sich dadurch selbst.

Wayback Machine - Webseite von Archive.org
Milliarden von Websites könnten in Vergessenheit geraten, wenn die "Wayback-Machine" nicht mehr existiertBild: Timon Schneider/SOPA Images/Sipa USA/picture alliance

Seit 30 Jahren archiviert das Internet-Portal archive.org digitale Inhalte. Die Wayback Machine umfasst mehr als eine Billion gespeicherter Webseiten und gilt als unverzichtbares Werkzeug für Journalistinnen, Forschende, Historiker und Juristinnen, um gelöschte oder veränderte Inhalte in ihrer ursprünglichen Form aufzurufen. Doch dieses einzigartige Projekt der gemeinnützigen Organisation aus San Francisco steht vor einer existenziellen Krise - und die neuesten Bedrohung kommt ausgerechnet von jenen, die das Archiv am dringendsten brauchen: den Medien selbst.

Denn eine wachsende Zahl großer Medienhäuser verweigert dem Internet-Archiv den Zugang zu ihren Inhalten. Laut einer Recherche der Nieman Foundation for Journalism an der Harvard University blockieren mindestens 241 Nachrichtenportale aus neun Ländern die Web-Crawler des Archivs, darunter "The Guardian", "The New York Times", "Le Monde" und der größte Zeitungskonzern der USA, "USA Today Co.".

Medienhäuser berauben sich selbst eines wichtigen Werkzeugs

Ausgerechnet "USA Today" veröffentlichte kürzlich einen aufsehenerregenden Bericht darüber, wie die US-Einwanderungsbehörde ICE systematisch Informationen über ihre Inhaftierungspolitik zurückgehalten hatte. Grundlage der Recherche war die Wayback Machine von archive.org. Dasselbe Unternehmen, das diese Geschichte nur dank des Archivs schreiben konnte, blockiert nun den Zugang zu seinen eigenen Inhalten. 

Warum aber berauben sich Medienhäuser eines ihrer Werkzeuge? Die Antwort ist einfach: Angst vor Künstlicher Intelligenz. Die Verlage fürchten, dass KI-Unternehmen wie OpenAI oder Google ihre journalistischen Inhalte über den Umweg des Archivs massenhaft abgreifen, um damit ihre Sprachmodelle zu trainieren - ohne Genehmigung, ohne Vergütung. Der Sprecher der "New York Times", Graham James, sagte es offen: "Das Problem ist, dass Times-Inhalte im Internet Archive von KI-Unternehmen unter Verletzung des Urheberrechts genutzt werden, um direkt mit uns zu konkurrieren."

Bis zu zehntausenden Anfragen pro Sekunde durch KI-Bots

Tatsächlich zeigen Daten, dass auf der Website von archive.org massenhaft Bots eingesetzt wurden, die nach Inhalten der Medienhäuser suchen, um sie für das Training von KI-Modellen zu nutzen - und damit genau an die Daten zu kommen, die ihnen verweigert werden. Mark Graham, Direktor der Wayback Machine, bestätigte dem Magazin "Wired", dass einzelne Unternehmen zeitweise mit Zehntausenden Anfragen pro Sekunde auf die Archive zugegriffen hätten - bis zur temporären Überlastung der Server.  

Archive.org war darauf nicht vorbereitet. Denn die gemeinützige Organisation ist dem offenen Internet verpflichtet; ihr Motto lautet: "Genau wie eine klassische Bibliothek bieten wir Forschern, Historikern, Wissenschaftlern, Menschen mit Lesebehinderungen und der breiten Öffentlichkeit freien Zugang. Unser Ziel ist es, allen Menschen universellen Zugang zu allem Wissen zu ermöglichen." Damit verbietet sich auch der Ausschluss von Bots und Crawlern - was jetzt zu den Sanktionen der großen Verlags- und Medienhäuser führte.

Bibliotheken archivieren jahrhundertealtes Wissen - doch digitale Inhalte drohen nach wenigen Jahrzehnten zu verschwindenBild: Valentin Wolf/imageBROKER/picture alliance

 Die auf digitale Fragen spezialisierte Menschenrechtsorganisation Electronic Frontier Foundation (EFF) vergleicht das Vorgehen der Verlage damit, dass "ein Zeitungsverlag ankündigt, Bibliotheken dürften keine Kopien seiner Zeitung mehr aufbewahren". 

Die Geschichte des Internets droht verloren zu gehen

Inzwischen haben mehr 100 Journalisten eine Petition zur Unterstützung des Internet-Archivs unterzeichnet. In ihrem offenen Brief heißt es: "In einer digitalen Medienlandschaft, in der Artikel aufgrund von Linkverlusten, Unternehmenszusammenschlüssen oder Kosteneinsparungen verschwinden, sind Journalisten häufig auf die Wayback Machine des Archivs angewiesen, um Seiten wiederherzustellen, die sonst verloren gingen. Ohne diese kontinuierliche Arbeit zur Bewahrung des Internets wären große Teile der jüngeren journalistischen Geschichte bereits verloren."

Mark Graham sagte dem Magazin "Wired", er sei in Gesprächen mit den Medienhäusern, um den Zugang wiederherzustellen. Wie das ausgeht, ist offen. Doch sein Fazit klingt wie eine Warnung: "Es steht außer Frage, dass die zunehmende Sperrung großer Teile des öffentlichen Webs die Fähigkeit der Gesellschaft beeinträchtigt, zu verstehen, was in unserer Welt vor sich geht."

"Web-Archivierung gehört zur öffentlichen Infrastruktur"

Der Medienjournalist und Gründer von socialmedia watchblog.de, Martin Fehrensen, sieht in archive.org die einzige funktionierende Beweismittelkette des offenen Webs. Falls es seine Aufgaben nicht mehr erfüllen könne, habe dies erhabliche Konsequenzen, sagte er der DW: "Millionen Wikipedia-Quellenbelege verlieren ihren Anker, Recherchen zu Plattform-Accountability, also welche AGB galt wann, welche Moderationsregel wurde wie umformuliert, werden deutlich schwieriger, gerichtsfeste digitale Evidenz fällt weg." Gerade für Medienhäuser sei es völlig absurd, das Archiv zu blockieren.

Um den Konflikt beizulegen, gebe es zwei Wege: "Wir brauchen einen Publisher-Dialog mit einer sauberen technischen Trennung zwischen Archivierung und KI-Training - denn das ist der eigentliche Konflikt, nicht das Archiv." Mittelfristig muss nach Fehrensens Auffassung ein rechtlicher Sonderstatus für Web-Archive geschaffen werden. Und langfristig "gehört Web-Archivierung als öffentliche Infrastruktur behandelt, nicht als Einzelprojekt einer NGO in San Francisco. Dass sie 2026 noch immer von einer einzigen Organisation abhängt, ist das eigentliche strukturelle Versagen."

Nur ein Konflikt unter vielen - aber der dramatischste

Das Internet-Archiv kämpft nicht zum ersten Mal um seine Existenz. Im September 2024 wurden bei einem Hackerangriff Daten von 31 Millionen Nutzerkonten gestohlen - ein schwerer Schlag, von dem sich die Organisation mühsam erholte. Im selben Jahr verlor das Archiv den Urheberrechtsstreit *Hachette v. Internet Archive* vor einem US-Berufungsgericht: Die Verlage Hachette, Penguin Random House, HarperCollins und Wiley hatten erfolgreich gegen das kostenlose E-Book-Verleihprogramm geklagt, das das Archiv während der Covid-Pandemie aufgelegt hatte. Mehr als 500.000 Bücher mussten aus dem Verleih genommen werden. Dennoch drohen archive.org Schadensersatzforderungen in Millionenhöhe.

Verglichen mit diesen Niederlagen ist die aktuelle Bedrohung durch die Medienblockaden strukturell gravierender - weil sie nicht durch ein Urteil oder ein Update behoben werden kann. Sie ist das Ergebnis zahlreicher Unternehmens-Entscheidungen, die zusammen das Kerngeschäft der Wayback Machine aushöhlen: das lückenlose Dokumentieren des öffentlichen Webs.

Den nächsten Abschnitt Top-Thema überspringen

Top-Thema

Den nächsten Abschnitt Weitere Themen überspringen