Studie zur Web-Haltbarkeit: Das Netz vergisst schnell (Spiegel Online, 22.9.2012)

Studie zur Web-Haltbarkeit

Das Netz vergisst schnell

Das Internet vergisst nie? Von wegen. Das Web ist ein extrem flüchtiges Medium – binnen zweieinhalb Jahren ist ein Viertel der wichtigen Online-Quellen zum Arabischen Frühling, dem Schweinegrippe-Ausbruch und Michael Jacksons Tod wieder verschwunden.

Spiegel Online, 22.9.2012

{jumi [*3]}

Wenn Historiker in 30 Jahren versuchen sollten, die Reaktion auf den Arabischen Frühling im Web zu analysieren, werden sie vor einem Problem stehen: Viele Quellen im Web dürften verschwunden sein. Das Internet vergisst eben doch, und zwar erstaunlich schnell. Einer Studie der US-Informatiker Hany M. SalahEldeen und Michael L. Nelson von der Old Dominion University zufolge ist heute bereits ein Viertel der 2009 in ausgewählten Tweets verlinkten Quellen zum Aufstand in Ägypten nicht mehr abrufbar.

Die Wissenschaftler haben mehr als 11.000 Links in Tweets zu sechs Großereignissen der Jahre 2009 bis 2012 untersucht. Ihr Ergebnis: Mitte 2012 war gut ein Viertel der 2009 in den ausgewählten Tweets verlinkten Quellen ist nicht mehr abrufbar. Immerhin sieben Prozent der im März 2012 auf Twitter empfohlenen und verlinkten Quellen war nicht mehr erreichbar. Es geht dabei um Videos bei YouTube, Fotos bei Twitpic und Yfrog, Artikel in US-Medien und Blog-Einträge auf WordPress.com – allesamt zeitgeschichtliche Dokumente, zum Teil wohl auch Primärquellen, wie zum Beispiel Videos aus Ägypten.

Web-Archive erhalten weniger als die Hälfte

Die Forscher werden ihre Studie am 25. September bei der Archivierungs-Fachtagung „Theory and Practice of Digital Libraries“ vorstellen, ihr Paper wurde von drei Mitgliedern des Auswahlkomitees geprüft und angenommen.

Die wesentliche Erkenntnis der Untersuchung: Je länger die Ereignisse zurückliegen, desto weniger der in Tweets verlinkten Quellen sind noch abrufbar. Auch Web-Archive wie das Internet Archive erhalten nur eine Minderheit der empfohlenen Quellen. Die Forscher haben beim von der US-Kongressbibliothek finanzierten Online-Dienst Memento geprüft, ob in einem der dort erfassten Web-Archive Kopien der Inhalte liegen.

Anteil verlorener und archivierter Online-Quellen (2009-2012)
EreignisStichprobe (Tweets)höchste Tweet-
anzahl
Anteil verschwun-
dener Websites (%)
Anteil archivierter Webseites (%)Anteil verschwun-
dener und nicht- archivierter Webseiten (%)
Proteste in Iran *342915.06.200925,8638,5117,76
Michael Jacksons Tod229325.06.200933,4534,225,85
Schweine-
grippe-Ausbruch
551711.09.200923,9542,1217,99
Friedens-
nobelpreis für Obama
111803.10.200924,8647,8715,95
Proteste in Ägypten **731911.02.201110,4820,187,67
Bürgerkrieg in Syrien ***195525.03.20127,045,357,04
* Stichproben anhand von Tags in mehrstufigen Verfahren aus einem 476 Million Tweets im Stanford Large Network Dataset, die im Zeitraum vom 1.6. bis 31.12.2009 veröffentlicht worden sind / ** Auswahl aus Storify, IAmJan25.com und aus dem Buch „Tweets From Tahrir“, Zeitraum 20.1.2011 – 1.3.2011 / *** Stichprobe aus dem März 2012, anhand von Tags mit der Twitter-Suchfunktion ausgewählt / Quelle: Losing My Revolution

Bei den Ereignissen aus dem Jahr 2009 waren nur um die 40 Prozent der damals auf Twitter empfohlenen Quellen bei einem der Online-Archive in Kopie hinterlegt. Zwischen 17 und 25 Prozent der untersuchten Webseiten waren weder am ursprünglichen Speicherort noch in einem der Online-Archive erhalten – Hunderte von Videos, Fotos und Artikeln zu den Protesten in Iran, Michael Jacksons Tod und dem Schweinegrippe-Ausbruch sind wohl unwiederbringlich verloren.

Die Forscher leiten aus ihren Ergebnissen diese Feststellung ab: Ein Jahr nach Erstveröffentlichung sind elf Prozent der Online-Quellen nicht mehr am ursprünglichen Speicherort und auch nicht in Web-Archiven abrufbar, danach steigt der Anteil der verschwundenen Seiten um 0,02 Prozentpunkte pro Tag.

Die Studie zeigt, wie flüchtig Online-Quellen sind. Erstaunlich ist, dass Quellen verschwinden, die von Nutzern als ausreichend wertvoll für öffentliche Empfehlungen erachtet wurden. Bislang war lediglich bekannt, dass Online-Archive der Alltagskultur verschwinden. So ist zum Beispiel der Großteil der einst öffentlich zugänglichen Friendster-Profile für immer verloren, weil der neue Besitzer 2011 die Daten löschte. Friendster war 2002 als eines der ersten Social Networks überhaupt gestartet. So hat zum Beispiel Archive.org, ein gemeinnütziges, privates Archiv-Projekt des Informatikers Brewster Kahle, 272 Terabyte Daten von Apple-Servern gerettet, als Mitte 2012 die Webauftritte Hunderttausender Kunden und damit zwölf Jahre Online-Alltagsgeschichte gelöscht wurden.

Deutschland speichert nicht

Während Bibliotheken heute Magazine, Zeitungen und auch E-Paper-Ausgaben archivieren, gibt es nach wie vor keine Langzeitarchivierung des World Wide Web. Die Wirtschaft hat in Deutschland 2008 erfolgreich gegen die Pflicht für Unternehmen lobbyiert, Online-Inhalte bei der Deutschen Nationalbibliothek abzuliefern.

Die Deutsche Nationalbibliothek hat zwar einen entsprechenden „erweiterten Sammelauftrag“. Auf der Website der DNB heißt es allerdings auch heute noch: „Derzeit werden Webseiten aller Art, z.B. statische und dynamische HTML-Seiten, Weblogs oder Foren, noch nicht gesammelt.“ Die Nationalbibliothek erarbeite derzeit „die organisatorischen und technischen Grundlagen“ zum „automatisierten Einsammeln von Websites“. Die langsamen Fortschritte bei der Online-Archivierung überraschen nicht – deutsche Bibliotheken haben nicht einmal genug Geld, um ihre Papierarchive vor Säurefraß zu schützen, von Digitalisierung ganz zu schweigen.