Die Tabelle lag offen im Netz. 650.000 Einträge über Werbe-Zielgruppen, schwer zugänglich. Aber mein Kollege Ingo Dachwitz hat sich für netzpolitik.org durchgewühlt. Im Werkstatt-Interview berichtet er, wie daraus eine große Recherche über eine Industrie wurde, die unser aller Privatsphäre verletzt. Und dann gibt es in dieser Ausgabe noch zwei Tools, die Recherchen auf YouTube und Mastodon aufs nächste Level bringen. Willkommen zu Newsletter #38.
Piped: Alternatives YouTube-Frontend
🔑 Wofür braucht man das? Piped macht YouTube-Inhalte ohne Ballast zugänglich. Wie das Entwickler-Team auf Github erklärt, verzichtet Piped auf Geoblocks, Altersbeschränkungen, Werbung, Tracking und Cookie-Banner. Das macht Piped zu einem ziemlich mächtigen Werkzeug. Wer bei einer Recherche schnell viele YouTube-Inhalte sichten muss, kann mit Piped Zeit und Nerven sparen.
⚙️ Wie funktioniert das? Piped ist ein quelloffenes Projekt und verspricht YouTube-Konsum "ohne die Angst vor neugierigen Blicken", heißt es auf Github. Bei der Entwicklung im Mittelpunkt standen demnach Privatsphäre und Effizienz. Alternative Frontends wie Piped holen sich die Daten von der ursprünglichen Plattform und sind entsprechend fehleranfällig. Sobald YouTube hinter den Kulissen etwas ändert, muss Piped nachbessern, oder manche Funktionen gehen kaputt.
📌 Was muss man beachten? Alternative Frontends sind kommerziellen Plattformen oft ein Dorn im Auge. Immerhin basiert das Geschäftsmodell der Plattformen auf Tracking und Werbung. Die Beteiligten spielen oft ein Katz-und-Maus-Spiel. Eine Alternative zu Piped ist etwa Invidious, für Android gibt es NewPipe. Liken und Kommentieren geht mit den alternativen Frontends freilich nicht – wer also seine liebsten Creator*innen unterstützen möchte und sich in der Community beteiligen, wird auf YouTube im Original nicht verzichten können.
Mastodon: Accounts und Hashtags in RSS-Feeds gießen
🔑 Wofür braucht man das? Geneigte Newsletter-Leser*innen wissen, dass ich ein Fan von RSS-Feeds bin. Damit lassen sich Nachrichten aus vielen Quellen in einer App bündeln. Mein Herz machte also einen Hüpfer, als ich bemerkte, wie gut sich Mastodon-Inhalte in RSS-Feeds gießen lassen. Auf diese Weise lassen sich beim täglichen Monitoring nicht nur Accounts verfolgen, sondern sogar Hashtags innerhalb von Accounts. Das bringt nicht nur Effizienz. Es zeigt auch, wie schön ein offenes, anpassbares, frei durchsuchbares Internet sein kann, ohne Silo-Denken und Login-Zwänge.
⚙️ Wie funktioniert das? Es genügt, die schlichte Zeichenfolge ".rss" ans Ende einer passenden Mastodon-URL zu packen. Fertig ist der RSS-Feed. Das klappt für einzelne Accounts (https://mastodon.social/@sebmeineck.rss), für Hashtags auf Instanzen (https://mastodon.social/tags/ChatGPT.rss) und sogar für Hashtags innerhalb von Accounts (https://mastodon.social/@sebmeineck/tagged/ai.rss). Das heißt, wer zum Beispiel gezielt nur meine Postings mit dem Hashtag #AI verfolgen wollte, könnte das per RSS-Feed tun.
📌 Was muss man beachten? Wer in den letzten zwei Absätzen nur Bahnhof verstanden und trotzdem neugierig weitergelesen hat, dürfte sich für folgende Einträge aus dem Newsletter-Archiv interessieren: Eine Einführung in die wunderbare Welt der RSS-Feeds und des Fediverse.
Interview: Ein tiefer Blick ins Innere der Datenindustrie
Person X mag teure Oliven: Websites verfolgen unsere Klicks und erstellen daraus Interessen-Profile. Solche Interessen sind nicht mit unserem Klarnamen verknüpft, aber mit Kenn-Nummern. Auf dieser Grundlage erhalten wir personalisierte Werbung. Die Werbeindustrie argumentiert: Sie sammelt nur allgemeine Infos; die Privatsphäre einzelner Nutzer:innen wird gewahrt. Zugleich spricht sie ihren Werbe-Kund*innen erfolgreiches Targeting.
Mein netzpolitik.org-Kollege Ingo Dachwitz berichtet seit Jahren über die Abgründe der Werbe-Industrie. Nun hat er ein Dokument ausgewertet, das bislang ungeahnte Einblicke erlaubt. Seine Artikelserie auf netzpolitik.org zeigt: Werbe-Kund*innen können uns mit ihren Anzeigen gezielt dort treffen, wo wir besonders verletzlich sind. Sie können zum Beispiel sagen: Meine Anzeige für ein fragwürdiges Diät-Präparat sollen nur Menschen sehen, die wahrscheinlich eine Essstörung haben.
Im Interview berichtet Ingo, wie er die Recherche bewältigt hat, welche Sackgassen es gab – und warum in dem Dokument noch ungehobene Schätze stecken.
ORN: Ingo, deine Recherche basiert auf einer riesigen Excel-Tabelle mit rund 650.000 Kategorien der Werbe-Industrie. Wie hast du das Dokument in die Finger bekommen?
Ingo Dachwitz: Tatsächlich lag die Tabelle offen im Internet, auch wenn sie etwas vergraben war. Der Datenhändler Xandr hat sie auf einer Dokumentations-Seite bereitgestellt. So umfangreich, wie die Datei ist, gehen wir nicht davon aus, dass das Absicht war. Nach unserer Presseanfragen hat Xandr die Datei wieder offline genommen. Eine Kopie ist aber noch beim Internet Archive verfügbar. Der Tracking-Forscher Wolfie Christl hatte die Datei gefunden. Er hat dann netzpolitik.org und das US-Magazin The Markup darüber informiert. Wir haben kooperiert und unsere Recherche parallel mit The Markup veröffentlicht.
ORN: Was macht die Tabelle so außergewöhnlich?
Ingo: Es ist das bisher größte Beweisstück dafür, wie der globale Datenhandel funktioniert. Die Liste ist aus dem Mai 2021, also ziemlich aktuell. Dass Werbefirmen jede Menge Daten über uns sammeln ist schon lange bekannt. Aber jetzt haben wir die Dimension erstmals Schwarz auf Weiß. Das hat mich total begeistert. Ich war von dem Thema schon sehr frustriert. Die Situation ist festgefahren, auch politisch. Seit sechs Jahren verhandelt die EU über die E-Privacy-Verordnung, die das Online-Tracking regulieren soll. Aber der Lobby-Druck der Werbeindustrie ist enorm. Nicht nur durch Google, Facebook und Co., auch durch deutsche Verlage. Das ist kein Zustand, den wir akzeptieren dürfen.
“Habe ich mich stundenlang in der Tabelle verloren”
ORN: Die Einträge in der Tabelle heißen Segmente und sehen zum Beispiel so aus:
Adsquare (Data Provider) | 2711 | 25423859 | Adsquare Data Alliance > DE > Place Visits > By Category > Eat and Drink > Restaurant > Fast Food (adsquare)
... und davon gibt es rund 650.000. Wo fängt man da an?
Ingo: Ich habe die Tabelle in handhabbare Teile zerlegt, zum Beispiel nach Themen sortiert. Viele Einträge haben auch Länderkürzel, zum Beispiel "DE" für Deutschland. Bei jedem Eintrag steht auch eine Firma, die das Segment bei Xandr angeboten hat. Insgesamt tauchen in der Tabelle 93 Firmen auf, sieben davon aus Deutschland. Darunter sind auch die Datenbroker der Deutschen Telekom und von ProSiebenSat1 Media. Mir war schnell klar, dass ich die Recherche auf Deutschland fokussieren will. Ich habe also die Einträge aus anderen Ländern aussortiert, dann blieben noch rund 25.000 übrig.
ORN: Okay, damit ist die Tabelle schon mal stark geschrumpft. Und dann?
Ingo: In der Tabelle sind natürlich auch völlig erwartbare Werbe-Kategorien, zum Beispiel Zielgruppen nach Geschlecht und Alter. Aber es gibt auch diese bedenklichen Kategorien wie "fragile seniors", "moms who shop like crazy" oder "Essstörungen". Um das zu finden, habe ich viel herumgescrollt. Ich habe auch per Stichwort-Suche nach juicy stuff gesucht, zum Beispiel nach Krankheiten oder Stichworten wie "LGBTQ". Zwischenzeitlich war ich vom Umfang des Stoffs echt überfordert. Ich habe total lange gebraucht, um in Gang zu kommen. Immer wieder dachte ich mir: Jetzt suche noch kurz ein paar spannende Dinge, und dann habe ich mich stundenlang in der Tabelle verloren.
ORN: Bei der Recherche haben dir auch unsere Praktis Lana und Jan geholfen, was haben sie gemacht?
Ingo: Sie haben dankenswerterweise einen detaillierten Blick auf die Segmente der deutschen Datenbroker geworfen, damit wir ein besseres Gefühl dafür bekommen, welche Schwerpunkte und Auffälligkeiten es dort gibt. Zum Beispiel gab es eine Firma aus Berlin, die sehr viele Location-Targeting anbietet. Die Firma hatte laut Tabelle Daten darüber, wer einen Edeka besucht hat oder einen Geldautomaten der Berliner Sparkasse. Auf Nachfrage hat uns die Firma mitgeteilt, dass sie die besuchten Geldautomaten heute nicht mehr so detailliert erfasse.
ORN: Welche Werkzeuge hast du für die Recherche benutzt?
Ingo: Das meiste lief über Excel-Tabellen, ich habe Stichworte gesucht und Häufigkeiten ausgerechnet. Hintergründe zu den Firmen habe ich bei North Data recherchiert, in Marketingmaterialien und auf Branchenportalen der Adtech-Szene. Mit Quellen aus der Branche habe ich auch gesprochen. Ich hatte noch überlegt, ehemalige Angestellte über LinkedIn zu ermitteln und mit ihnen zu sprechen, dafür hat dann aber die Zeit gefehlt.
“Da ist noch richtig viel Stoff drin.”
ORN: Was hast du bei der Recherche gelernt?
Ingo: Ich hatte vor der Veröffentlichung viel Stress damit, die Konfrontationen für alle betroffenen Firmen zu verfassen. Das waren etwa 20 Firmen, die bekommen ja alle einen eigenen Fragenkatalog. Es hätte mir sehr geholfen, wenn ich mir gleich bei der Recherche aufgeschrieben hätte, was ich die Firmen alles fragen will. In diesem Fall habe ich auch jeder konfrontierten Firma eine Liste mit fragwürdigen Datenkategorien geschickt, die hätte ich auch von Anfang an besser sammeln und sortieren sollen.
ORN: Was kann die Recherche bewirken?
Ingo: Nach der Veröffentlichung haben mehrere Datenschutzbehörden angekündigt, die von uns genannten Unternehmen prüfen zu wollen. Die Behörden haben sich bisher oft nur die Websites und Apps angeschaut, die unsere Daten sammeln. Das sind ja auch die Orte, an denen die meisten Nutzer:innen mit dem Thema in Berührung kommen. Aber die großen Datenhändler im Hintergrund schaut sich kaum jemand an. In den letzten Jahren war ich immer wieder frustriert davon, wie träge die Behörden sind. Aber ich weiß auch, da sitzen Menschen, die einen guten Job machen, und die wissen: Das Geschäftsmodell der Werbeindustrie lässt sich mit der Datenschutzgrundverordnung (DSGVO) schwer vereinbaren. Mit der Recherche haben wir den Behörden jetzt die beste Grundlage gegeben, tätig zu werden. Und ich werde nun alle halbe Jahr nachhaken, was passiert ist.
ORN: Was wäre die Alternative zur Datensammelei der Werbe-Industrie?
Ingo: Es bräuchte ein grundsätzliches Umdenken. Mit Reförmchen ist das nicht getan. Auch nicht mit noch längeren Einwilligungs-Erklärungen. Die App Wetter Online zum Beispiel listet inzwischen 1.400 Firmen auf. Das bringt doch überhaupt nichts. Die Antwort muss sein: Wir verzichten auf das, was viele Überwachungswerbung nennen. Wir steigen aus dem Targeted Advertising aus. Stattdessen braucht es kontextbasierte Werbung wie in der gedruckten Zeitung: Im Sportteil gibt es Werbung für Sport-Produkte. Das wäre eine echte Zeitenwende.
ORN: Stecken in dem Dokument noch weitere Recherchen?
Ingo: Ja, da ist noch richtig viel Stoff drin. Man findet da zu allen Weltregionen etwas, auch zu vielen europäischen Ländern. Sogar zu China, obwohl die Daten überwiegend von US-Firmen stammen. Ich habe auch einen englischsprachigen Text mit mehr EU-Bezug veröffentlicht, damit Kolleg:innen in anderen Ländern darauf aufmerksam werden. Man kann eigentlich für jedes Land und jedes Themengebiet eine eigene Recherche aus diesen Daten stricken.
Ausführlicher haben wir die Recherche im Podcast Off/On bei netzpolitik.org besprochen.
Für deinen Recherche-Alltag habe ich ein verschlagwortetes Archiv aller Beiträge zusammengestellt und eine Linkliste mit noch mehr Tools. Wenn dir der Online-Recherche Newsletter bei deiner Arbeit hilft, kannst du ihn jetzt hier auf Steady unterstützen. 💛
Danke fürs Lesen und viel Erfolg bei der Recherche!