ORN #52 Das große VW-Datenleck
... und wie ihr euch eine Offline-Alternative für ChatGPT auf den Laptop holt.
Hey, willkommen zur 52. Ausgabe des Online-Recherche Newsletters!
Mehr als 2.500 Menschen lesen schon diesen Newsletter und erweitern so ihre Recherche-Skills. Grandios! Ich freue mich, wenn Du diesen Newsletter an jemanden weiterleitest, der ihn noch nicht kennt. 📬
Zum Beispiel an jemanden, der gerne mit Sprachmodellen arbeitet: Große Sprachmodelle wie ChatGPT können beim Denken und Schreiben helfen. Aber gerade bei sensiblen Recherchen gibt es ein Problem. Was auch immer man mit dem Chatbot bespricht, es ist nicht vertraulich. Die Lösung sind Sprachmodelle, die ohne Internet auf dem eigenen Gerät laufen. Das ist inzwischen einfacher denn je.
Im Werkstatt-Interview berichtet Datenjournalist Michael Kreil, wie er plötzlich Zugriff auf Daten bekam, von denen selbst Geheimdienste nur träumen können.
GPT4All: Lokale Sprachmodelle ohne Hürden
🔑 Wofür braucht man das? GPT4All ist eine kostenlose Software mit simpler grafischer Oberfläche. Mit ihrer Hilfe kann man große Sprachmodelle lokal auf dem eigenen Rechner laufen lassen. Es ist fast so, als würde man mit ChatGPT im Browser schreiben – nur, dass keine Daten das eigene Gerät verlassen.
⚙️ Wie funktioniert das? GPT4All gibt es zum Download für Windows, MacOS und Linux. Die Software soll lokale Sprachmodelle für alle zugänglich zu machen, ohne besondere Programmierkenntnisse. Geld verdient der US-Anbieter Nomic mit anderen KI-Diensten. Mit GPT4All laufen eine Reihe offener Sprachmodelle, etwa von Meta oder Mistral.
📌 Was muss man beachten? ChatGPT ist lokalen Sprachmodellen ohne Zweifel überlegen. Ein limitierende Faktor ist schon die Rechenleistung des eigenen Geräts. Für meinen Test im Einsatz hatte ich Sprachmodelle mit einem Bedarf von 4 GB RAM auf einem Laptop mit 8 GB RAM. Pro Antwort musste ich ein paar Sekunden warten. Für manche Einsatzzwecke war das aber durchaus vorzeigbar.
LLama 3.2 für Deutsch/Englisch - Englisch/Deutsch
🔑 Wofür braucht man das? Mein Englisch ist ganz OK – aber gerade, wenn es schnell gehen soll, greife ich gerne zu Online-Übersetzungstools. Ein Problem ist das aber bei sensiblen Inhalten aus laufenden Recherchen. Es gibt einfach Dinge, die möchte man lieber nicht über DeepL oder ChatGPT jagen. Mithilfe von GPT4All kann man sich einen kostenlosen Offline-Übersetzer einrichten.
⚙️ Wie funktioniert das? Als lokales Sprachmodell für Übersetzungen habe ich "Llama 3.2 3B Instruct" ausprobiert. Das offene Sprachmodell stammt von Meta. Zur Installation klickt man bei GPT4All auf Models > Add Model. Mit Prompts wie "Übersetze von Deutsch zu Englisch" (oder umgekehrt) kamen nutzbare Ergebnisse heraus, die man nochmal händisch redigieren muss.
📌 Was muss man beachten? Ein System Prompt kann die Übersetzungen verbessern. Das ist eine grundlegende Arbeitsanweisung fürs Sprachmodell. Hinterlegen kann man sie bei GPT4All unter Settings > Model > System Message. Entwerfen lässt sich so ein Prompt wiederum mit ChatGPT ("Schreibe mir einen System Prompt auf Englisch für ein lokales Sprachmodell, das akkurat zwischen Deutsch und Englisch übersetzen soll").
Qwen2.1 als Spürhund für Datenberge
🔑 Wofür braucht man das? Hunderte Dokumente und wenig Zeit – wie finde ich Nadeln im Heuhaufen? Eine Hilfe ist die Funktion „local documents“. Dabei erschließt sich GPT4All ein lokales Dateiarchiv für die lokalen Sprachmodelle. Danach kann man eines der Modelle fragen: Was steht in den Dokumenten über Thema xy? Das Sprachmodell spuckt daraufhin eine Antwort mit Link zur passenden Datei aus.
⚙️ Wie funktioniert das? Unter Local Docs > Add Collection kann man GPT4All Ordner mit Dateien zuführen. Das klappt mit den Formaten PDF, txt und md. Die Software verarbeitet daraufhin die Inhalte auf eine Weise, dass ein lokales Sprachmodell sie in seine Antworten einbeziehen kann. GPT4All empfiehlt hierfür derzeit das Sprachmodell "Qwen2-1.5B-Instruct" vom chinesischen Konzern Alibaba.
📌 Was muss man beachten? Gerade mit begrenzter Rechenleistung sind die Ergebnisse gemischt und können kein Ersatz sein für eine eigene, gründliche Suche. Es ist eine Ergänzung zum Querlesen und zur Stichwortsuche per Strg+F. So lassen sich in einem Konvolut von Dokumenten schnell erste Spuren entdecken.
Interview: Wissen, wo dein Auto steht
Autohersteller rücken ihren Kund*innen sehr eng auf die Pelle. Das zeigte Ende 2024 eine Sicherheitslücke beim VW-Konzern auf, die der SPIEGEL aufdeckte. In ganz Europa wurden Menschen von ihren Elektroautos minutiös getrackt. Solche Recherchen über IT-Sicherheitslücken bringen selbst erfahrene Kolleg*innen ins Schwitzen – denn sie geschehen in einem Graubereich, wie Michael Kreil im Interview erklärt.
ORN: Michael, alles begann mit dem Hinweis, dass Daten von VW-Kund*innen ungeschützt in einer Amazon-Cloud herumliegen. Wie findet man solche Hinweise?
Michael Kreil: Auf unsere Quelle kann ich nicht näher eingehen. Aber üblicherweise läuft das so: Menschen, die sich mit IT-Sicherheit auskennen, surfen im Internet und bemerken etwas Seltsames, das sie sich genauer anschauen. Dabei geht es um Hilfsbereitschaft. Stell dir vor, du würdest auf der Straße ein gestrandetes Auto mit offenen Türen sehen. Dann würdest du auch mal schauen, was da los ist, und ob es dem Fahrer gut geht.
ORN: Um die Lücke zu finden, kamen laut SPIEGEL Werkzeuge zum Einsatz, die sowohl IT-Sicherheitsfachleute nutzen als auch kriminelle Hacker*innen. Was muss ich mir darunter vorstellen?
Michael: Das sind offen verfügbare Werkzeuge, mit denen man zum Beispiel automatisch Subdomains auf einer Website finden kann oder Pfade auf einem Webserver durchprobieren.
Genaue Koordinaten, rund 470.000 Autos
ORN: Der Hinweis ging zuerst an den Chaos Computer Club (CCC). Wie wurde daraus eine SPIEGEL-Recherche?
Michael: Viele wenden sich zuerst an den CCC, wenn sie eine solche Lücke finden. Das liegt daran, dass Unternehmen gerne IT-Sicherheitsforschende verklagen statt ihre Hinweise dankend anzunehmen. Der CCC hat Routine im Melden solcher Lücken. Das Verfahren heißt Responsible Disclosure. In diesem Fall hat sich der CCC auch an mich gewandt, weil bekannt ist, dass ich mich mit solchen Datensätzen gut auskenne. Wir merkten, der eigentliche Skandal ist nicht die Lücke selbst, sondern dass einer der größten Autokonzerne der Welt so viele Daten erfasst. Das ist von großem öffentlichen Interesse. Deshalb haben wir auch den SPIEGEL an Bord geholt.
ORN: Was für Daten waren das genau?
Michael: Da war zunächst eine Liste mit rund 15 Millionen Fahrzeugen von VW-Marken, vor allem aus Europa. Zu jedem Fahrzeug gab es eine einzigartige User-ID. Auffindbar war auch der Zugang zu einer Datenbank, die verrät, wer hinter einer User-ID steckt, also: Vorname, Nachname, Adresse, Telefonnummer. Außerdem gab es 9,5 Terrabyte technische Statusmeldungen der Autos. Die spannendsten waren GPS-Koordinaten mit einer Genauigkeit von unter einem Meter. Auf diese Weise konnten wir den Alltag von Menschen rekonstruieren: Wohnort, Arbeitsplatz, Schule, Golfclub. Betroffen davon waren rund 470.000 Elektroautos von VW und Skoda.

ORN: Warum erfassen die Elektroautos so genaue Standortdaten?
Michael: Volkswagen bietet digitale Dienste an, zum Beispiel können Kunden ihr Auto per App orten. In diesem Fall aber wollte die VW-Tochter Cariad mit den Statusmeldungen die Leistung der Batterien überwachen und verbessern. Warum dafür auch so hochgenaue Standortdaten benötigt werden, ist uns nicht klar. Vermutlich handelt es sich um einen Fehler in den internen Entscheidungswegen.
ORN: Laut SPIEGEL legt Cariad Wert auf die Feststellung, dass die Daten innerhalb des Konzerns niemals so zusammengeführt werden, "dass ein Rückschluss auf einzelne Personen möglich ist oder Bewegungsprofile erstellt werden". Für eure Recherche habt ihr aber genau das gemacht?
Michael: Ich hoffe, dass VW die Daten nicht so auswertet, wie wir das gemacht haben. Aber sowas ist nun mal genau die Gefahr, wenn Externe Zugriff darauf haben. Für unsere Recherche brauchte ich ein Setup, das so viele Daten ohne lange Wartezeiten verarbeiten kann. Das habe ich lokal mit einem Mac mini gemacht. Als Interface habe ich VersaTiles genutzt. Das ist ein quelloffenes Werkzeug für interaktive Karten, das ich mitentwickelt habe. Damit konnte ich mir pro Fahrzeug übersichtlich anzeigen lassen, wo genau es wann geortet wurde.
Jonglieren mit Pressekodex und Hackerethik
ORN: Wonach hast du zuerst gesucht?
Michael: Ich habe mir viele Bewegungsprofile von Autos angeschaut, die bei Unternehmen, Behörden oder auch Geheimdiensten parken. Schnell war klar, dass auch viele sicherheitsrelevante Personen betroffen sind. Auch über die E-Mail-Adressen der Fahrzeug-Halter:innen konnte ich viele Fälle finden. Es gab Autos, die mit einer E-Mail-Adresse @bundestag.de registriert wurden. Wir haben schließlich zwei Abgeordnete als Beispiel-Fälle ausgewählt und kontaktiert – weil das die Menschen sind, die selbst per Gesetzgebung etwas verändern könnten. Beide waren bereit, für den Artikel mit dem SPIEGEL zu sprechen: Markus Grübel (CDU) aus dem Bundestag und Nadja Weipert (Grüne) aus dem niedersächsischen Landtag.
ORN: Mit Blick auf den Pressekodex musstet ihr VW konfrontieren; mit Blick auf die Hacker-Ethik die Lücke melden. In welcher Reihenfolge macht man das?
Michael: Darüber haben wir uns lange den Kopf zerbrochen. Priorität für uns hatte zuerst, VW die Lücke offenzulegen, damit die Daten möglichst schnell geschützt sind. Deshalb gab es zuerst die Responsible Disclosure, während unsere laufenden Recherchen noch nicht bekannt waren. In einem nächsten Schritt kam dann die Konfrontation.
ORN: Wie hat VW reagiert? Cariad spricht laut SPIEGEL lieber von einer "Fehlkonfiguration" statt einer Sicherheitslücke.
Michael: Es gibt Geschichten von Unternehmen, die in einer solchen Situation die Forschende verklagen. Im Vergleich dazu war die Reaktion vorbildlich. VW und seine Tochterfirma haben sich bemüht, die Lücke schnell zu schließen.
“Hackerparagraf schränkt Presssefreiheit ein”
ORN: Was hat die Recherche für dich bedeutet?
Michael: Sie hat mir genau vor Augen geführt, wovor ich seit vielen Jahren warne, nämlich wie gefährlich solche Datensammlungen sind. Ich konnte sogar Autos von VW-Vorständen verfolgen; sehen, wo Menschen ihre Kinder zur Kita bringen. Das Missbrauchspotenzial ist enorm, auch für Spionage. Die Wirkung der Recherche war aber nicht ganz wie erhofft. Mein Eindruck war, dass die Leute denken: Eine Sicherheitslücke kann doch jedem mal passieren. Das Problem geht aber über die Lücke und auch über VW hinaus: Autohersteller sammeln viel zu viele Daten und schützen sie nicht ausreichend! Ich hoffe, die juristische Aufarbeitung verläuft sauber. Zuständig sind nämlich die Behörden in Niedersachsen – also einem Land, das selbst besonders von VW profitiert.
ORN: Braucht es mehr solcher Recherchen zu Sicherheitslücken?
Michael: Es ist schwer, solche Recherchen zu empfehlen, weil sie in Deutschland in einer rechtlichen Grauzone geschehen. Das war für mich auch ein merkwürdiges Gefühl. Ich lief ohne Rechtssicherheit mit einem verschlüsselten Laptop herum, auf dem auch private Standortdaten von Verfassungsschützer:innen herumlagen.
Ich wünsche mir, dass der Gesetzgeber den Hackerparagrafen anpasst, um IT-Sicherheitsforschende zu schützen. Viele Redaktionen trauen sich gar nicht mehr an solche Recherchen, weil sie befürchten, sich strafbar zu machen. Der Hackerparagraf schränkt damit auch die Pressefreiheit ein. Wir haben eine Stiftung Warentest – nach ähnlichem Vorbild bräuchte es Redaktionen, die im öffentlichen Interesse IT-Sicherheit prüfen können.
Mehr über die Recherche erzählen Michael und Flüpke auf ihrem Vortrag vom 38C3; noch mehr Visualisierungen zur Recherche gibt es auf GitHub.
Das war’s für diese Ausgabe. 💫 Wenn du mir auf Mastodon oder Bluesky folgst, liest du regelmäßig Neuigkeiten rund um Netzpolitik, Databroker und digitale Gewalt.
Vor der Online-Veröffentlichung erscheint dieser Newsletter zuerst gedruckt und teils gekürzt im Medium Magazin. Für deinen Recherche-Alltag habe ich ein verschlagwortetes Online-Archiv aller Beiträge zusammengestellt und eine Linkliste mit noch mehr Tools.
Danke fürs Lesen, viel Erfolg bei der Recherche und bis zum nächsten Mal 💛
Sebastian