Kennt ihr dieses beklemmende Gefühl, wenn man etwas nicht verstanden hat und mit sich selbst ringt: Soll ich es einfach auf sich beruhen lassen – oder nachfragen? Ich habe mich für Nachfragen entschieden, und das Ergebnis ist das Werkstatt-Interview dieses Newsletters. Es geht um KI-Systeme zur Bilderkennung, um vermeintlich “anzügliche” Fotos und um Statistik.
Die Werkzeug-Tipps dieser Ausgabe kreisen um Audio-Aufnahmen, und eines davon hat mir schon mal aus der Patsche geholfen. Willkommen zu Ausgabe #42.
Adobe Enhance: Audio-Aufnahmen retten
🔑 Wofür braucht man das? Wenn Nochmal-Aufnehmen keine Option ist, dann kann Adobe Enhance verpfuschte Audios retten. Zum Beispiel, wenn man bei einer Podcast-Aufnahme versehentlich in die falsche Seite des Mikrofons gesprochen hat, und alles klingt wie aus der Blechdose. Ich spreche da aus eigener Erfahrung (verlegenes Räuspern).
⚙️ Wie funktioniert das? Meine Erwartungen waren gering, als ich das Tool das erste Mal getestet habe. Zu gut erinnerte ich mich an die allenfalls mittelmäßigen Ergebnisse von klassischer Rausch-Unterdrückung: Wattige Stimmen, ein mulmig-maschineller Klang. Adobe Enhance ist nicht perfekt, aber um Längen besser. Adobe Enhance nutzt generative KI, um die Stimme nah ans Ohr heran zu holen; Hall und Rauschen werden entfernt.
📌 Was muss man beachten? Um das Werkzeug zu nutzen, muss man sich mit einem Adobe-Account einloggen. In der Gratis-Version sind die Funktionen beschränkt. Unbegrezte Uploads und Feintuning gibt es nur für zahlende Kund*innen.
TTS Util: Der Vorleser
🔑 Wofür braucht man das? TTS Util ist mein Geheimtipp, um sich auf dem Handy Texte vorlesen zu lassen. Die quelloffene Android-App lässt sich im Google Play Store oder bei F-Droid herunterladen. Ich nutze sie etwa, um mir unfertige Texte vor dem Redigat anzuhören, während ich eine Bildschirmpause mache. Beim Wechsel vom Sehen zum Hören fällt mir oft auf, wo es bei einem Text noch hakt und was ich ergänzen möchte. Auch dieser Text hat eine Runde über TTS Util gedreht.
⚙️ Wie funktioniert das? Maschinen können nicht nur gesprochene Sprache in Text verwandeln, sondern auch Text in Sprache. Das geläufige Kürzel dafür ist TTS, text to speech. Ich nutze das seit Jahren gerne für meine Arbeit - bin bisher aber nur wenigen Kolleg*innen begegnet, die das auch machen. Vielleicht liegt es daran, dass die Werkzeuge kaum bekannt sind, oder ich bin einfach ein Kauz.
📌 Was muss man beachten? TTS Util funktioniert offline. Das ist mir wichtig, weil meine unfertigen Texte nichts auf irgendwelchen fremden Servern zu suchen haben. Wie das so ist bei kleinen, quelloffenen App-Projekten: Manchmal stürzt TTS Util mittendrin ab. Der Workaround: Auf Wunsch erzeugt die App eine Audio-Datei im wav-Format. Während die Datei berechnet wird, muss man sich zwar kurz gedulden; beim Abspielen der fertigen Datei läuft dann aber alles flüssig.
Interview: KI-Systeme mit Statistik ausforschen
Plattformen wie Instagram und Facebook sortieren Uploads mithilfe automatischer Bilderkennung. Die Systeme sollen zum Beispiel abschätzen, ob Bilder "anzüglich" sind. Dann können die Plattformen entscheiden, ob sie diese Aufnahmen direkt blockieren oder ihren Moderationsteams vorlegen.
Unter dem Titel “Zu sexy: Wie KI-Algorithmen Frauen benachteiligen können” hat der Bayerische Rundfunk vier große Bilderkennungs-Systeme getestet. Zum Team gehörten Katharina Brunner, Datenjournalistin bei BR Recherche/ BR Data und Elisa Harlan, inzwischen Teamlead bei SWR Data Lab. Im Interview erklären sie, wie sich sexistische Verzerrungen in solchen Systemen nachweisen lassen – und warum Datenjournalist*innen Grundlagen der Statistik brauchen.
ORN: Katharina, Elisa, ihr habt 3.000 Bilder durch die Bilderkennungs-Systeme von vier kommerziellen Anbietern gejagt. Was ist dabei herausgekommen?
Elisa: Wir haben starke Hinweise darauf gefunden, dass die Systeme von Google, Amazon, Microsoft und Side Engine einen Gender Bias haben, wenn sie die Anzüglichkeit von Bildern bewerten sollten. Bilder von Frauen werden häufiger als anzüglich bewertet als Bilder von Männern. Ein Mann in Badehose zum Beispiel wirkt für die Systeme eher unbedenklich, eine Frau im Bikini dagegen anzüglich.
ORN: Und diese Bilderkennungs-Systeme können Journalist*innen einfach so ausprobieren?
Katharina: Ja, man kann sich dort einfach als Kundin anmelden und Kreditkarten-Daten hinterlegen. Dann bekommt man einen API-Key, also einen Schlüssel, um die Programmierschnittstelle zu nutzen.
Elisa: Wenn man dort Bilder hochlädt, spucken die Systeme Scores aus, also Zahlenwerte, die zum Beispiel ausdrücken, mit welcher Wahrscheinlichkeit ein System ein Bild für anzüglich hält. In diesen Score können Merkmale einfließen wie der Anteil nackter Haut, der Ausschnitt des Körpers oder die Pose der gezeigten Person. Es ist aber oft unklar, wie genau ein System auf diesen Wert kommt.
ORN: Wie viel kostet so ein Zugang?
Katharina: Nicht viel. Einige Anbieter bieten kostenlose Probe-Zeiträume, das hat für unseren Versuch oft gereicht. Für einen Anbieter haben wir etwa 50 US-Dollar ausgegeben.
KI-System soll auch Pornos und Gewalt erkennen
ORN: Wie habt ihr die 3.000 Bilder für euren Test ausgewählt?
Katharina: Wir haben zuerst mehrere Kategorien entworfen, um das Verhalten der Maschine besser beobachten zu können. Ob ein Bild "aufreizend" ist, wird ja nicht allein durch nackte Haut bestimmt. Eine Kategorie waren Unterwäsche-Models, und zwar solche, die so langweilig wie möglich fotografiert sind, ohne Posen. Hierfür fanden wir viele Bilder bei Herstellern von Unterwäsche aus Bio-Baumwolle. Wir haben auch die freie Bilderdatenbank Unsplash genutzt. Andere Kategorien waren Schwimmbekleidung oder Freizeit- und Business-Kleidung.
Elisa: Wir waren dazu auch in Kontakt mit Carsten Schwemmer, Professor für Computational Social Science an der Universität München. Mit ihm haben wir zum Beispiel besprochen, wie viele Bilder wir für den Versuch benötigen, um stichhaltige Aussagen treffen zu können.
ORN: Und konntet ihr den Gender Bias in jeder Kategorie beobachten?
Katharina: Ja, mal mehr, mal weniger ausgeprägt. Alle Anbieter haben Fotos von Frauen häufiger als "anzüglich" bewertet.
Elisa: Es gab auch absurde Einzelfälle. Da war das Foto einer vollständig bekleideten Frau auf dem Sofa, die einfach ein Buch liest. Sie wurde von einem Anbieter als sehr wahrscheinlich "anzüglich" eingestuft.
ORN: Gab es solche krassen Fehler auch bei Bildern mit männlich gelesenen Personen?
Katharina: Ja, aber nur sehr wenige. Wir haben sie gezielt gesucht, weil wir uns das auch gefragt haben.
ORN: Die Dienste von Google, Amazon, Microsoft und SideEngine können nicht nur "Anzüglichkeit" erkennen. Wer das möchte, kann die Systeme auch nach Pornografie, Gewaltdarstellungen, Alkohol, Drogen und verbotenen Symbolen suchen lassen. Schlummern da weitere Recherche zu diskriminierenden Biases?
Elisa: Ja, das ist auch super spannend. Wir haben uns in dieser Recherche gezielt für die Kategorie "Anzüglichkeit" – auf Englisch "raciness" – entschieden, weil sie extrem schwer zu messen ist. Ein verbotenes Symbol zum Beispiel ist vergleichsweise einfach zu erkennen. Aber was man als "anzüglich" betrachtet, ist ein soziales Konstrukt. Allein die Frage, wann ein Rock "zu kurz" ist, werden Menschen sehr unterschiedlich beantworten.
“Die große Stärke von Datenjournalismus”
Katharina: Die Anbieter weisen auch immer wieder darauf hin, dass Nutzer*innen selbst entscheiden müssen, welche Konsequenzen sie aus den Zahlenwerten ziehen. Aber den Ton gibt letztlich eine Maschine an, die sagt: Dieses Bild ist mit 80-prozentiger Wahrscheinlichkeit "anzüglich". So ein Bias kann zum Beispiel dazu führen, dass Inhalte von bestimmten Gruppen häufiger gesperrt oder in der Reichweite eingeschränkt werden, in diesem Fall: Bilder von Frauen.
ORN: Die Recherche ist eine Zusammenarbeit mit dem US-amerikanischen Guardian. Wie kam die zustande?
Katharina: Die erste Idee kam von der freien Journalistin Hilke Schellmann, die in den USA arbeitet. Sie hat sich mit einigen Beispielen an uns gewandt, bei denen man klar sehen konnte, wie Fotos von Frauen als besonders "anzüglich" eingestuft werden. Das war aber zunächst nur anekdotische Evidenz, für einen Bericht hat uns das nicht gereicht. Die Anbieter hätten uns vorwerfen können, dass unsere Beobachtungen nur Zufall sind und wir Cherrypicking betreiben. Wir wollten den Bias also mit einem breiter angelegten Experiment möglichst stichhaltig überprüfen.
Elisa: Das ist die große Stärke von datenjournalistischen Methoden. Wir können solche Beobachtungen mit einem systematischen Ansatz überprüfen. Am Ende haben wir zwei voneinander unabhängige Experimente gemacht, du findest beim Guardian also einen etwas anderen Ansatz. Die Ergebnisse sind relativ identisch.
ORN: Ihr habt eure Ergebnisse statistisch überprüft und die Methode in einem separaten Artikel erklärt. Verstanden habe ich das nicht. Könnt ihr das nochmal in kleinen Schritten erklären?
Katharina: Na klar. Ich beschreibe dir zuerst, wie unsere Datenbasis aussieht. Wir haben die Namen der 3.000 Bilder, die wir getestet haben, aufgeteilt nach Kategorien wie Unterwäsche oder Business-Kleidung. Für jedes Bild haben wir das Geschlecht der abgebildeten Person notiert und den Score. Also den Zahlenwert der Anbieter, inwieweit sie das Bild für "anzüglich" halten. Daraus lassen sich pro Kategorie und Geschlecht Durchschnittswerte berechnen. Wir könnten also zum Beispiel sagen: So oft hält Microsoft Frauen in Unterwäsche für anzüglich, so oft Männer.
ORN: Und der Unterschied dieser Durchschnittswerte ist dann der Bias?
Katharina: Noch nicht ganz. Es kann ein Bias sein, es kann aber auch reiner Zufall sein. Um das zu bestimmen, haben wir statistische Methoden angewandt.
ORN: Jetzt kommt die Rache dafür, dass ich das Statistik-Seminar an der Uni nicht besucht habe. Wie funktioniert das?
“Stoff aus dem ersten Semester”
Katharina: Wir haben ein Verfahren namens Bootstrapping angewandt. Dafür haben wir zunächst aus unserer Datenbasis pro Kategorie 100 Stichproben gezogen. Danach könnte man zwar für jede Stichprobe den Unterschied der Durchschnittswerte nach Geschlecht berechnen. Das genügt aber immer noch nicht, um zu sagen: Dieser Unterschied ist nur Zufall, dieser andere Unterschied ist ein Bias.
ORN: Genau, denn woher will man wissen, ob der beobachtete Unterschied groß oder klein ist?
Katharina: Die Stichproben zu ziehen ist nur der erste Schritt. Der zweite sind Simulationen. Dahinter steckt die Idee, dass wir etwas brauchen, das wir als Vergleich heranziehen können. Das nennt man Nullhypothese. In unserem Fall ist das eine Welt, in der es den Unterschied männlich/weiblich nicht gibt. Pro Stichprobe simulieren wir also eine Welt, in der es keine Unterschiede zwischen den Geschlechtern gibt, das ist diese Nullhypothese.
Auf Datenebene heißt das: Wir würfeln durcheinander, welchem Foto aus unserer Datenbasis wir welches Geschlecht zuweisen. Das heißt, wir füllen in unserer Tabelle die Spalte über das Geschlecht mit zufälligen Werten. Danach berechnen wir dann pro Simulation einen Durchschnittswert für Männer und einen für Frauen und prüfen, wie gut die reale Welt, die gezogene Stichprobe, in diese simulierte Nullhypothesenwelt passt.
ORN: Mein Kopf brummt schon. Also, wenn man die Information zum Geschlecht durch zufällige Werte ersetzt, dann...?
Katharina: Dann sollte der Unterschied zwischen den Durchschnitten von Männern und Frauen um die Null herum pendeln und sich dort häufen. Und dann kann man die diese Häufung als Vergleich heranziehen: Wie weit sind die Durchschnittswerte der Nullhypothesen-Welt von denen aus der echten Welt entfernt? Nur, wenn sie weit genug voneinander entfernt sind, deuten wir sie als Bias. Wir haben dafür ein Signifikanz-Niveau von 0,1 Prozent ausgewählt, das ist sehr streng. Es drückt aus: Die Wahrscheinlichkeit, dass ein von uns Unterschied zwischen den Durchschnittswerten von Männern und Frauen zufällig auftritt, ist 0,1 Prozent.
ORN: Wie viele Semester Statistik braucht man, um das richtig zu verstehen?
Katharina: Das ist Stoff aus dem ersten Semester.
ORN: 🫠
Katharina: Ich finde, Journalist*innen müssen das jetzt nicht genau erklären können, wenn man sie nachts aufweckt. Aber sie sollten Grundlagen der Statistik halbwegs verstehen, um Studien besser einschätzen zu können. Da geht es immer wieder um die Frage, ob Beobachtungen signifikant sind und wie streng der Signifikanz-Wert ist.
Elisa: Die Lösung liegt sicher auch in interdisziplinären Teams, in denen manche Kolleg*innen mehr Übung damit haben.
Blackbox-Systeme untersuchen
ORN: Danke für die tröstenden Worte. Zumindest verstehe ich jetzt viel besser als vorher die Grafik mit den Ergebnissen eurer Recherche. In der Kategorie "Ganzkörperaufnahmen in Unterwäsche" hat Microsoft bei 100 von 100 Stichproben mit jeweils 1.000 Simulationen einen Gender Bias, Google bei 50, Amazon bei 0. Das sind schon deutliche Unterschiede. Wie habt ihr die Brücke von den Daten zur Veröffentlichung geschlagen?
Elisa: Ich glaube, es ist oft die größte Schwierigkeit, die Ergebnisse runterzubrechen und zu vermitteln. Am Ende brauchen wir nämlich einen Artikel mit Überschrift und Teaser. Alles soll verständlich und gleichzeitig korrekt sein. Bei manchen datenjournalistischen Projekten funktioniert das besser als bei anderen.
Katharina: Bei Radio und Fernsehen kommt hinzu, dass wir Protagonist*innen brauchen. Bei dieser Recherche war es leicht, sich eine Methodik für die Daten zu überlegen – aber es war schwer, Menschen zu finden, die von dem Gender Bias betroffen sind, weil die Systeme opak im Hintergrund arbeiten. Oft wissen Betroffene nicht einmal davon.
ORN: Welche Inspiration für weitere Recherchen kann man aus eurer Recherche ziehen?
Katharina: Dass man selbst sogenannte Blackbox-Systeme untersuchen kann. Wir wissen zwar nicht genau, wie ihre Entscheidungen zustanden kommen. Aber mit statistischen Methoden müssen wir uns nicht auf anekdotische Evidenz verlassen. Wir können einen Input definieren und den Output untersuchen.
Elisa: Vor allem bei KI-Systemen, die mit sozialen Konstrukten arbeiten, lohnt es sich, genauer hinzuschauen. Da wird etwas quantifiziert, das sich kaum klar definieren lässt, und dabei kann es zu Diskriminierung kommen. Eine solche Recherche hatte ich auch mit dem Kollegen Oliver Schnuck gemacht. Da ging es um fragwürdige KI-Systeme, die bei Job-Interviews die Persönlichkeit von Bewerber*innen bestimmen sollen.
Für deinen Recherche-Alltag habe ich ein verschlagwortetes Archiv aller Beiträge zusammengestellt und eine Linkliste mit noch mehr Tools. Wenn dir der Online-Recherche Newsletter bei deiner Arbeit hilft, kannst du ihn jetzt hier auf Steady unterstützen. 💛
Danke fürs Lesen und viel Erfolg bei der Recherche!