ORN #46 So hast du YouTube noch nie durchsucht
... und der ultimative Recherche-Hack, um große Datensätze zu labeln.
Hey, willkommen zur neusten Ausgabe des Online-Recherche Newsletters! Gezielt nach geschriebenen Worten googeln, das sind wir seit Jahren gewohnt. Aber gesprochene Worte in Podcasts und Videos, die waren für die Recherche kaum zugänglich. Bis heute. Die drei Werkzeuge, die ich in diesem Newsletter vorstelle, durchbrechen diese Mauer.
Im Werkstatt-Interview berichtet Federico Gentile von einer epischen Recherche rund um Zebrastreifen. Und er liefert Ideen für weitere Recherchen, die nur darauf warten, umgesetzt zu werden. 🦓
Filmot: Volltext-Suche für gesprochene Worte auf YouTube
🔑 Wofür braucht man das? So lässt sich YouTube auf eine völlig neue Weise erkunden: Die Suchmaschine Filmot findet Worte, die in YouTube-Videos gesprochen wurden. Es lassen sich also gezielt Uploads finden, in denen bestimmte Begriffe wie Namen oder Unternehmen fallen. Selbst beiläufige Erwähnungen in längeren Video-Podcasts fördert Filmot zu Tage. Besonders praktisch: In der Ergebnis-Vorschau zeigt Filmot den gesuchten Begriff im Kontext. Ein Klick führt direkt an die passende Stelle im Video.
⚙️ Wie funktioniert das? Filmot ist das Hobby-Projekt des Entwicklers Jopik und spendenfinanziert. Laut Info-Seite fallen monatlich 510 US-Dollar Server-Kosten an. Den Rohstoff für Filmot liefert YouTube selbst: Viele Videos werden dort automatisch transkribiert. YouTube nutzt das etwa für Untertitel – Filmot füttert damit seine Suchmaschine.
📌 Was muss man beachten? Filmot soll Texte aus 687 Millionen Videos durchsuchen können. Eine Menge, aber kein vollständiges Abbild der Plattform. Denn YouTube kann nicht aus allen Sprachen transkribieren und macht dabei auch Fehler. Liefert Filmot keine Treffer, kann es sich also lohnen, andere Schreibweisen zu probieren. Wer sich richtig reinfuchsen möchte, kann sich auf Discord mit Jopik austauschen.
Summarize: Fasst lange Videos mit "KI" zusammen
🔑 Wofür braucht man das? Das Werkzeug Summarize.tech liefert schriftliche Zusammenfassungen von YouTube-Videos. Das ist eine große Hilfe, wenn man in kurzer Zeit viele lange Videos sichten möchte. Wer im Tool den Link eines YouTube-Videos eingibt, erhält nach kurzer Zeit einen Text auf Englisch. Das funktioniert auch, wenn im Video eine andere Sprache geprochen wird.
🥚 Wie funktioniert das? Das Werkzeug hat derzeit keine eigene Infoseite, die über die technischen Hintergründe aufklärt. Offensichtlich nutzt es aber die automatisch generierten YouTube-Transkripte und schickt sie an ein Sprachmodell, also eine "Künstliche Intelligenz" wie ChatGPT. In der Gratis-Version von Summarize lässt sich nur eine begrenzte Anzahl an Videos pro Tag zusammenfassen; die Premium-Version kostet 10 US-Dollar im Monat.
📌 Was muss man beachten? Sprachmodelle machen ständig Fehler, davor warnt das Tool auch selbst. Auf Englisch steht über jeder Zusammenfassung, dass sie "durch KI erstellt" worden sei und "Ungenauigkeiten enthalten" könne. Für einen schnellen Überblick zu großen Mengen Videomaterial kann das trotzdem sehr nützlich sein. Die wichtigen Passagen sollte man dennoch nochmal im Original nachhören.
ListenNotes: Die aktuell beste Podcast-Suchmaschine
🔑 Wofür braucht man das? Podcasts sind ein Kosmos für herausragenden Journalismus und wertvolle Zitate. Leider fehlt eine Suchmaschine, die diesen Kosmos für die Recherche vollständig zugänglich macht. Technisch wäre das mithilfe maschineller Transkription möglich. Projekte wie Audiosear.ch, Spaactor und Podtext.ai haben das probiert, wurden aber eingestellt. Am besten klappt es derzeit mit ListenNotes. Es landete schon mal vor vier Jahren hier im Newsletter und hat sich seitdem weiter entwickelt.
⚙️ Wie funktioniert das? ListenNotes kann nach eigenen Angaben 186 Millionen Episoden aus rund 3,3 Millionen Podcasts durchsuchbar machen. Transkripte können aber nur durchsucht werden, wenn Podcasts sie selbst anbieten. Ansonsten sucht ListenNotes in Titeln, Tags und Beschreibungen. Auch wenn die Datenbank bereits viele Ergebnisse liefert: Da ist noch Luft nach oben.
📌 Was muss man beachten? ListenNotes wurde seit 2016 stetig ausgebaut: Es gibt inzwischen etwa ausgefeilte Funktionen, um neue Podcasts zu entdecken, eine Programmierschnittstelle zur Datenbank und ein Premium-Angebot. Zahlende Nutzer*innen können sich etwa per RSS-Feed informieren lassen, wenn neue Episoden zu gesuchten Stichworten erscheinen. Die meisten Podcasts der Suchmaschine sind auf Englisch (knapp 2 Millionen); aus dem deutschsprachigen Raum sind rund 92.000 Podcasts vertreten. Wer einen Podcast bei ListenNotes vermisst, kann ihn händisch hinzufügen.
Interview: Was der Datenjournalismus von Tinder lernen kann
Fragt man Federico Gentile, was er so für ein Typ ist, dann sagt er: “Ich finde es interessant, Dinge zu verbessern.” Der Mitte 30-jährige Informatiker engagiert sich im Luxemburger Verein Zentrum für urbane Gerechtigkeit für eine lebenswertere Stadt. Sein bisher größtes Projekt ist eine Recherche zu sicheren Zebrastreifen. Es ist eine Geschichte über Datenjournalismus und mauernde Behörden, über die erfolgreiche Suche nach Verbündeten und darüber, welche Enthüllungen in kostenlosen Satellitenbildern schlummern.
ORN: Federico, Luxemburg-Stadt hat rund 1.800 Zebrastreifen. Was stimmt mit denen nicht?
Federico Gentile: Mehrere Hundert davon sind zugeparkt, die Parkplätze sind sogar offiziell eingezeichnet. Dabei ist Parken im Abstand von fünf Metern rund um Zebrastreifen verboten. Die Autos versperren die Sicht auf Fußgänger*innen, und das erhöht die Unfallgefahr. Wir hatten davon zuerst durch den Hinweis eines Twitter-Users gelesen. Seitdem konnten wir nicht anders, als überall in der Stadt diese unsicheren Zebrastreifen zu bemerken. Also dachten wir, das müssten wir systematisch angehen.
ORN: Wie habt ihr das gemacht?
Federico: Zuerst haben wir OpenStreetMap genutzt. Das ist so eine Art Wikipedia für Karten. Menschen tragen dort zum Beispiel Geschäfte, öffentliche Toiletten, Bushaltestellen und eben auch Zebrastreifen ein. Mit einer Programmierschnittstelle, Overpass, kannst du diese Daten gezielt durchsuchen. Wer sich damit nicht so gut auskennt, kann das auch direkt im Browser auf overpass-turbo.eu machen. Am Ende brauchst du nur einen Suchbefehl und bekommst die genauen Koordinaten der Zebrastreifen in Luxemburg-Stadt.
ORN: Wie habt ihr geprüft, ob die Zebrastreifen zugeparkt sind?
Federico: Bei OpenStreetMap gab es nicht genug Daten über Parkplätze, also haben wir nach Satellitenbildern gesucht. Die Aufnahmen bei Google Maps hatten keine ausreichend gute Auflösung und waren nicht aktuell genug. In Luxemburg wird ständig gebaut, das Stadtbild verändert sich schnell. Zum Glück veröffentlicht Luxemburg auf geoportail.lu selbst hochauflösende Satellitenbilder. Das Material ist quelloffen und wird zwei Mal pro Jahr erneuert.
ORN: Und dann habt ihr eine Art Tinder gebaut, richtig?
Federico: Ja, wir haben uns gefragt, wie wir das bewältigen können, so viele Satellitenbilder zu prüfen. Unser Zebrastreifen-Tinder sollte die Arbeit so angenehm wie möglich machen. Du hast dann vor dir auf dem Handy ein Satellitenbild und als Hilfsmittel einen Kreis mit einem Fünf-Meter-Durchmesser, den du frei verschieben kannst. Wie bei Tinder wischt man nach rechts oder links, je nachdem, ob ein Zebrastreifen sicher oder unsicher ist. Genauer gesagt: ob es im Fünf-Meter-Umkreis Parkplätze gibt oder nicht.
ORN: Große Datensätze nach dem Tinder-Prinzip zu labeln – genau das hatte auch das Team rund um Emily Baker-White gemacht, die ich mal für diesen Newsletter interviewt habe. Ich fand das mega innovativ. Jetzt frage ich mich: Ist das vielleicht gar nicht so krass, weil das eh alle machen?
Federico: Ganz ehrlich – keine Ahnung! 😅 Ich kannte das nicht vorher. Aber man erfindet ja ganz selten etwas Neues.
ORN: Okay! Und wie schwer ist das, so eine App zu programmieren?
Federico: Wir haben daran abends in unserer Freizeit gearbeitet, das hat nicht besonders lange gedauert. Den Code haben wir auf GitHub veröffentlicht. Ich finde aber, wer selbst so eine Recherche machen will und keine Programmierer*innen im Team hat, sollte sich nicht einschüchtern lassen. Letztlich kann man das auch mit einer Tabelle schaffen.
ORN: Wie lange musstet ihr Zebrastreifen tindern?
Federico: Drei bis vier Wochen, aber wir hatten uns dafür Hilfe geholt. Im Verein sind wir nur zu fünft. Wir haben, damals noch auf Twitter, gefragt, wer uns uns beim Zebrastreifen-Tinder helfen möchte. Dafür haben wir ein Vorschau-Video veröffentlicht, auf dem man sich das Interface der App anschauen konnte. Darauf haben sich 20 bis 25 Freiwillige gemeldet. Es kann sich also sehr lohnen, wenn man solche Projekte öffentlich begleitet! Jeder Zebrastreifen wurde mindestens fünf Mal überprüft. Am Ende wussten wir, dass knapp 500 davon gegen das Gesetz verstoßen.
Der Streit geht vor Gericht
ORN: Wie habt ihr sichergestellt, dass die Daten stimmen?
Federico: Anders als beim echten Tinder gab es in unserer App noch eine dritte Option, die man antippen konnte, wenn man sich unsicher ist. Wir haben nur Zebrastreifen mit eindeutigen Voten gewertet; uneindeutige haben wir nochmal genau betrachtet. Außerdem haben wir Stichproben gemacht und bei einigen vor Ort nachgemessen.
ORN: Und dann haben sich die Behörden herzlich für eure Recherche bedankt und die Geschichte hatte ein Happy End. – Richtig?!
Federico: Leider nein. Die Geschichte ist bis heute nicht vorbei. Die Stadt wollte sich zuerst gar nicht äußern. Das ist erst durch Druck von Oppositionsparteien und Presse passiert. Dann kam der Vorwurf, dass unsere Methode falsch sei, in Wahrheit gebe es nur knapp 40 problematische Zebrastreifen. Das konnten wir nicht nachvollziehen. Wir wollten deshalb von der Stadt wissen, wie sie auf diese Zahl kommen. Aber die Stadt will ihre Dokumente nicht offenlegen. Auch nicht nach einer Anfrage per Informationsfreiheitsgesetz.
ORN: ... ein Gesetz, das den Staat verpflichtet, Informationen offenzulegen, wenn keine besonderen Gründe dagegen sprechen.
Federico: Deshalb klagen wir jetzt vor dem Verwaltungsgericht. Der Termin ist im September. Wir bekommen oft die Frage, ob es nicht auch wichtigere Dinge gibt, immerhin beschäftigen wir uns jetzt seit 2021 mit Zebrastreifen.
ORN: Und was antwortest du dann?
Federico: Es gibt immer wichtigere Dinge, aber sichere Straßenübergänge sind eine legitime Forderung. Nur weil der Verkehr in Chicago schlimmer ist, heißt das nicht, dass man hier nichts verbessern sollte. Eigentlich sind die Distanzen in Luxemburg kurz und man könnte vieles zu Fuß oder mit dem Rad erledigen. Aber ähnlich wie die Deutschen lieben die Luxemburger*innen ihr Auto. Wer selbst mal angefahren wurde, nimmt das Thema vielleicht nicht mehr auf die leichte Schulter.
“Wir freuen uns, wenn Menschen etwas Ähnliches starten”
ORN: Stecken da noch mehr Recherchen in der Kombination aus OpenStreetMap und Satellitenbildern?
Federico: Ja, wir freuen uns, wenn Menschen etwas Ähnliches starten! Man könnte zum Beispiel erfassen, wie gut Bodenleitsysteme in einer Stadt verbreitet sind.
ORN: ... das sind diese weißen Bodenplatten mit Rillen oder Noppen, die Menschen mit Sehbehinderung den Weg zeigen.
Federico: Genau. Eine andere Idee sind Fahrradwege: Sind die wirklich breit genug? Hören sie mittendrin auf? Kostenlose Satellitenbilder aus anderen Ländern gibt es zum Beispiel vom Copernicus-Programm der ESA.
ORN: Was hast du aus der Recherche gelernt? 🥚
Federico: Dass du immer Hilfe und Verbündete finden kannst, wenn du danach suchst. Irgendwann wurde klar, dass wir keine Chance auf die Dokumente haben, wenn wir nicht vor Gericht ziehen. Also haben wir in sozialen Medien nach Spenden gefragt, um das nicht aus eigener Tasche zu zahlen. Innerhalb weniger Monate kamen per Crowdfunding rund 8.000 Euro zusammen. Das hat uns enorm motiviert. Dabei hat es uns auch geholfen, ein eingetragener Verein zu sein. Wir haben diesen Verein überhaupt erst gegründet, als die Sache ernster wurde. Ich glaube, Menschen spenden lieber an einen Verein als an irgendeine Privatperson.
ORN: Hatte eure Recherche schon Konsequenzen?
Federico: Ja, Dutzende Medien haben berichtet, inzwischen auch über die Grenzen von Luxemburg hinaus. Und wenn wir durch die Stadt gehen, sehen wir, dass sich bei einigen Zebrastreifen etwas verändert hat. Plötzlich sind da Schraffierungen auf der Straße, damit dort keine Autos parken. Die Stadt hat dazu nichts kommuniziert. Wenn wir das sehen, müssen wir schon schmunzeln.
ORN: Vielen Dank für das Interview!
Das war’s für diese Ausgabe. 💫 Wenn du mir auf Mastodon folgst, liest du regemäßig Neuigkeiten rund um Netzpolitik, KI und digitale Gewalt.
Hat dich dieser Newsletter schon mal zu einer Recherche inspiriert? Das würde mich sehr freuen. Erzähle mir gerne davon, indem du auf diese E-Mail antwortest!
Vor der Online-Veröffentlichung erscheint dieser Newsletter zuerst gedruckt (und teils gekürzt) im Medium Magazin. Für deinen Recherche-Alltag habe ich ein verschlagwortetes Online-Archiv aller Beiträge zusammengestellt und eine Linkliste mit noch mehr Tools.
Danke fürs Lesen, viel Erfolg bei der Recherche und bis zum nächsten Mal 💛
Sebastian