ORN #53 Spuren sichern, bevor sie verschwinden
... und was wir von den Menschen lernen können, die Daten vor der Trump-Zensur retten.
Hey, willkommen zur 53. Ausgabe des Online-Recherche Newsletters!
Auch wenn man manchmal das glatte Gegenteil hört: Das Internet vergisst ständig. Mal nehmen Plattformen ganze Server offline, weil ihnen der Betrieb zu teuer wird. Mal genügt eine Presseanfrage, und windige Geschäftsleute entfernen schwuppdiwupp ihren Namen aus dem Impressum 🤨🔎
Aber es gibt einfache Werkzeuge, um Recherche-Funde wie nebenbei zu dokumentieren. Drei davon stelle ich heute vor. Auch im Werkstatt-Interview geht es um Sicherung: Hier berichtet Datenretter Sebastian Majstorovic, wie er mit einer Community aus Freiwilligen digitale Archive vor der Vernichtung bewahrt.
FireShot: Blitzschnell PDF-Belege erstellen
🔑 Wofür braucht man das? Mit der Browser-Erweiterung FireShot für Firefox und Chrome lassen sich Recherche-Funde im Netz schnell und einfach als PDF-Dokument speichern. Ich nutze es alle paar Tage, zum Beispiel wenn ich zu dubiosen Firmen recherchiere oder flüchtige Social-Media-Kommentare dokumentiere.
⚙️ Wie funktioniert das? Einmal installiert, geht es ganz schnell. Klick auf das FireShot-Icon in der Browser-Symbolleiste > Klick auf "Erfassen der ganzen Seite". Auf Wunsch scrollt sich FireShot sogar durch lange Websites und gießt alles in ein PDF, inklusive Zeitstempel und Angabe der URL.
📌 Was muss man beachten? Besonders gefallen mir die praktischen Dateinamen bei FireShot. Das spart viel Zeit und hilft beim Wiederfinden. Unter Optionen > Dateinamen-Vorlagen lässt sich zum Beispiel festlegen, dass PDFs immer nach Datum, URL und Seitentitel benannt werden und in einem Wunschordner landen. Auf diese Weise lassen sich Online-Funde so lässig dokumentieren, als würde man beim Spazieren einen Schnappschuss machen.
Wayback Machine: Öffentliches Internet-Archiv nutzen
🔑 Wofür braucht man das? Möchte man Recherche-Funde nicht nur lokal auf dem eigenen Gerät sichern, sondern auch öffentlich, dann ist die Wayback Machine des Internet Archives die beste Wahl. Am schnellsten klappt das im Recherche-Alltag mit der Browser-Erweiterung "Wayback Machine" für Firefox und Chrome. Einfach die gewünschte Website aufrufen, das Icon in der Symbolleiste anklicken und "Save Page Now" anklicken.
⚙️ Wie funktioniert das? Das gemeinnützige Internet Archive spiegelt automatisch Websites und macht sie über die Wayback Machine öffentlich verfügbar. So lassen sich Veränderungen auf Seiten teils über Jahrzehnte nachverfolgen. Gerade bei Recherchen zu dubiosen Firmen verlinke ich im Online-Artikel lieber direkt auf eine frisch archivierte Version der Website statt auf das Original. Denn mitunter verschwinden auf solchen Seiten unvorteilhafte Passagen, kurz nachdem ich darüber berichtet habe. So ein Zufall!
📌 Was muss man beachten? Beim Sammeln von Recherche-Belegen kombiniere ich gerne die öffentliche Wayback Machine mit lokalen Kopien. So kann ich mir sicher sein, dass ich auf jeden Fall Belege zur Hand habe, auch wenn das Internet Archive mal technische Probleme haben sollte.
Webrecorder: Komplexe Websites sichern
🔑 Wofür braucht man das? Manche Online-Inhalte lassen sich schwerlich als PDF oder im Internet Archive sichern, etwa, weil viele interaktive Elemente oder Videos dazugehören. Hier kann der Webrecorder glänzen. Wie ein Staubsauger erfasst er alle Elemente einer Seite und bündelt sie in einer einzelnen Datei, die man lokal archivieren, verschicken oder auch wieder veröffentlichen kann.
⚙️ Wie funktioniert das? Der Webrecorder gehört zu einem Paket quelloffener Software für Webarchivierung. Am einfachsten zu bedienen ist das Tool per Browser-Erweiterung für Chrome: Klick auf das Icon > Klick auf "Start Archiving". Das Ergebnis lässt sich im WACZ-Format speichern; das ist ein inzwischen standardisiertes Archiv-Format.
📌 Was muss man beachten? Gerade weil der Webrecorder so viele Inhalte erfasst, schwellen die Dateien schnell auf viele Megabyte an. Bei potentiell justiziablen Recherchen archiviere ich meine Funde gerne auch als PDF. Die lassen sich nämlich am einfachsten auf Papier drucken, falls die Recherche irgendwann einmal bei Gerichten oder Kanzleien landen sollte.
Interview: Die Tricks der Datenretter
Zur Machtübernahme von Donald Trump gehört die Zensur öffentlicher Datenbanken. Hunderte Freiwillige haben sich zusammengeschlossen und retten Terrabyte für Terrabyte vor den staatlichen Löschkommandos. Mittendrin ist Sebastian Majstorovic aus Köln, digitaler Historiker und Spezialist für offene Daten.
Er hat eine Vorliebe für simple Werkzeuge, die möglichst viele Freiwillige direkt bedienen können. Im Interview erzählt er, wie sich selbst komplexe Websites leicht archivieren lassen – und wie man das Wissen einer Nation bewahrt.
ORN: Sebastian Majstorovic, was ist das Data Rescue Project?
Sebastian: Das ist eine Initiative, um die Rettung von Daten vor der Trump-Regierung zu koordinieren. Denn was gerade in den USA passiert, ist eine digitale Bücherverbrennung. Die Regierung löscht öffentliche Daten, die Allgemeingut sind. Die Grundlage sind oft plumpe Listen mit Stichwörtern, die nicht länger erwünscht sind, zum Beispiel "Rassismus", "Klimakrise" oder auch nur "Schwarz" und "Frauen". Niemand weiß genau, in welchem Umfang gerade Daten verschwinden. Beim Pentagon verschwanden Fotos des Flugzeugs "Enola Gay" aus dem Archiv, das 1945 die Atombombe auf Hiroshima abgeworfen hat – offenbar, weil das Wort "gay" unerwünscht ist.
ORN: Wer sind die Menschen, mit denen du solche Daten rettest?
Sebastian: Das sind Freiwillige aus vielen Ländern, ein Großteil kommt aus den USA. Die meisten sind Datenbibliothekar*innen und haben Expertise aus Universitäten, Museen oder Archiven. Im Data Rescue Tracker dokumentieren wir gemeinsam, welche Datensätze gefährdet sind und welche schon gesichert wurden, und wir empfehlen Werkzeuge zur Datenrettung.
ORN: Öffentliche Daten sichern – macht das nicht eigentlich schon das Internet Archive?
Sebastian: Das Internet Archive ist eine riesige Hilfe bei der Webarchivierung. Seit 2004 landen am Ende jeder Legislaturperiode alle Regierungswebsites in diesem Archiv (eotarchive.org). Aber das Internet Archive erfasst nicht alles. Darunter fallen größere Medieninhalte, Audios und Videos. Aber auch öffentliche Datenbanken auf Servern, die üblicherweise nur Fachleute benutzen. Als die Trump-Regierung anfing, mit den Löschungen zu eskalieren, habe ich schnell selbst damit angefangen, selbst Daten zu sichern. Inzwischen sind es allein bei mir schon über 150 Terrabyte.
ORN: Welche der Daten sind unersetzlich?
Sebastian: Die Datensätze sind enorm vielfältig. Es geht zum Beispiel um Klimakrise und Umweltverschmutzung, um die Geschichte von US-Amerikaner*innen, die Schwarz oder trans sind, um medizinische Forschung oder Volkszählungsdaten. Wir bekommen schon jetzt viele Anfragen von Journalist*innen, die sich für diesen Daten interessieren.
Werkzeuge müssen so einfach wie möglich sein
ORN: Wie kann man in den Daten recherchieren?
Sebastian: Zuerst geht es uns darum, die Daten zu retten und zu katalogisieren. In den USA sind alle Daten von Bundesbehörden gemeinfrei, es gibt also sehr viele. Wir haben bereits viele Server in der EU, und es sollen noch mehr werden. Langfristig wollen wir die Inhalte auch öffentlich zugänglich machen. Das Vorbild ist ein älteres Datenrettungs-Projekt, das ich mitgegründet habe: SUCHO, das steht für "Saving Ukrainian Cultural Heritage Online". Seit der Großinvasion Russlands im Februar 2022 sammeln wir auf database.sucho.org das digitale Kulturerbe der Ukraine. Dieses Projekt läuft immer noch. Es ist mit Blick auf das Datenvolumen aber deutlich kleiner als das Data Rescue Project.
ORN: Server-Kapazitäten sind teuer, woher kommt euer Geld?
Sebastian: Aktuell vor allem von der Non-Profit-Organisation für die ich arbeite. Wir suchen im Moment aber händeringend freiwillige Fundraiser*innen. Bei SUCHO bekamen wir auch viele Spenden von Unternehmen und Stiftungen.
ORN: Kannst du einfache Werkzeuge weiterempfehlen, die auch für journalistischen Recherchen nützlich sind?
Sebastian: Ja, mehrere! Gerade wenn man mit vielen Freiwilligen arbeitet, müssen die Werkzeuge so einfach wie möglich sein. Um strukturiert zusammenzuarbeiten nutzen wir das Datenbank-System Baserow. Die Basisversion ist kostenlos und quelloffen. Baserow verfolgt den Grundsatz "No-Code", das heißt, man braucht keine Programmierkenntnisse, um es zu bedienen. Wir können mit Baserow genau festhalten, wer welche Aufgabe erledigt. Wir können zentral festlegen, wie die Datensätze heißen, die gesichert werden müssen, und dann können die Freiwilligen sie gezielt auswählen. So lassen sich Tippfehler und doppelte Arbeit vermeiden. Ich liebe es über alles! Man kann auch Daten visualisieren, ohne eine Zeile Code zu schreiben. Eine andere quelloffene Alternative zu Baserow ist NocoDB.
“Das ist die Zukunft der Web-Archivierung”
ORN: Was gibt es noch?
Sebastian: DataLumos ist ein öffentliches Archiv für wertvolle Daten der US-Regierung. Da kann man nach bereits katalogisierten Daten suchen und auch selbst neue Daten hinzufügen und entsprechend kennzeichnen. Es ist die einfachste Methode, wenn man zum Beispiel sehr gezielt kleinere Datensätze oder sogar nur einzelne Studien sichern möchte. Dahinter steht das internationale Forschungskonsortium ICPSR.
ORN: Und wie archiviere ich am einfachsten komplexe Websites?
Sebastian: Mit den quelloffenen Tools von Webrecorder. Damit kann man medienlastige und reichhaltige Websites sichern, mit denen man erst interagieren muss – zum Beispiel Textboxen ausklappen, Videos abspielen oder Bildergalerien durchscrollen. Die Software klickt auf alles, was klickbar ist. Das Ergebnis ist eine einzelne Datei im WACZ-Format, die man lokal speichern kann. Mit dieser Datei kannst du dir offline immer wieder die exakte Kopie der Website anschauen. Das Dateiformat ist die Zukunft der Web-Archivierung. Es wird schon von Nationalbibliotheken wie der Library of Congress verwendet und gerade zum internationalen Standard erhoben.
ORN: Welche Daten rettest du als nächstes?
Sebastian: Ich werde noch lange mit den laufenden Projekten beschäftigt sein. Aber Datenrettung ist etwas, das wir europaweit planen müssen. Es braucht nicht einmal politische Zensur oder Krieg, damit Daten verloren gehen. Vielleicht werden auch einfach Mittel gekürzt und Server nicht länger bezahlt. Oder es gibt ein Unglück wie den Einsturz des Stadtarchivs in Köln 2009. Viele Museen haben zwar Rettungspläne für ihre physischen Sammlungen, nicht aber für ihre digitalen Archive. Wir brauchen Pläne, wie wir das öffentliche, digitale Gedächtnis bewahren können.
Wenn du noch mehr über meinen Interviewgast erfahren möchtest: Drüben bei netzpolitik.org habe ich mit Sebastian über seine persönliche Motivation gesprochen – und ob die US-Demokratie seiner Meinung nach noch zu retten ist.
Das war’s für diese Ausgabe. 💫 Wenn du mir auf Mastodon oder Bluesky folgst, liest du regelmäßig Neuigkeiten rund um Netzpolitik, Databroker und digitale Gewalt.
Vor der Online-Veröffentlichung erscheint dieser Newsletter zuerst gedruckt und teils gekürzt im Medium Magazin. Für deinen Recherche-Alltag habe ich ein verschlagwortetes Online-Archiv aller Beiträge zusammengestellt und eine Linkliste mit noch mehr Tools.
Danke fürs Lesen, viel Erfolg bei der Recherche und bis zum nächsten Mal 💛
Sebastian