HeiseMining: Mit öffentlichen Daten hinter die Kulissen von heise online blicken

Allein aus den öffentlich einsehbaren Daten lässt sich jede Menge über die Arbeit bei heise online und die Foren ableiten. Eine Außenansicht von Olaf Pilzner.

In Pocket speichern vorlesen Druckansicht 55 Kommentare lesen

(Bild: Zakharchuk/Shutterstock.com/heise online)

Lesezeit: 18 Min.
Von
  • Olaf Pilzner
Inhaltsverzeichnis

Erfahrungsgemäß zeichnen sich Artikel im Newsticker von heise online durch eine Aufmerksamkeitsspanne von wenigen Tagen aus: Sobald sie von den Startseiten verschwunden sind, sind sie auch aus dem Sinn. Dabei sind diese Artikel eigentlich viel zu wertvoll, um im Archiv des vergessen zu werden: Wie viele Artikel – immerhin seit 1996 – gibt es, die es wert wären, noch einmal anzusehen? Was kann der Außenstehende aus der Menge aller Artikel herauslesen? Was ist möglich, wenn wir die öffentlich verfügbaren Daten dieser Artikel einer näheren Analyse unterziehen?

Nach dem Vorbild von SpiegelMining – dem faszinierenden Vortrag von David Kriesel auf dem 33C3 – hatte ich daher angefangen, das Newsticker-Archiv von heise online Monat für Monat zu crawlen und Metadaten zu Artikeln zu sammeln: So haben sich zum Beispiel für die fünf Jahre von 2015 bis 2019 54.246 News-Artikel angesammelt; zusammen mit gut 5,5 Millionen Userkommentaren. Betrachtet wird dabei tatsächlich nur der Heise-Newsticker, während Magazinforen oder das allgemeine Forum außen vor bleiben. Schon aus diesen Zahlen lässt sich ableiten: Durch die Redaktion von heise online werden jedes Jahr ca. 10.000 Artikel publiziert (also etwa 200 bis 250 pro Woche); dazu kommen ca. eine Million Userkommentare (etwa 20.000 pro Woche) und dies über die betrachteten Jahre mit leichter Tendenz nach oben.

Zum Autor

Olaf Pilzner hat sein Diplom zur technischen Informatik an der FH Hannover abgelegt und danach durchgehend im Bereich Messtechnik Software implementiert beziehungsweise Geräte-Entwicklungen geleitet; derzeit im Bereich industrieller Sensorik. Der Vortrag "SpiegelMining" hat ihn zu diesen Analysen inspiriert.

Anmerkung der Redaktion: Der Autor hat seine Analyse ohne Hilfe der Redaktion erstellt, seine Schlussfolgerungen müssen also nicht stimmen. Wir haben ihn lediglich gebeten, jede Information über einzelne Autoren und Autorinnen zu tilgen. Außerdem haben wir dieser Sammlung und Auswertung der Daten insoweit zugestimmt, als diese Zustimmung nötig ist. Wir veröffentlichen den Text auch, um unseren Lesern und Leserinnen zu verdeutlichen, was sich alles aus reinen Metadaten ermitteln lässt, ohne dass der zugehörige Inhalt bekannt sein muss.

In diesem Artikel soll ein Blick auf verschiedene Auswertungen geworfen werden, die sich auf den Newsticker anwenden lassen. Für diese Analysen werden den heise-Nachrichten dazu verschiedene Metadaten entnommen:

  • Datum und Uhrzeit der Veröffentlichung
  • Autor des Artikels
  • Länge des Artikels
  • Link zu Themen-Seiten
  • Link zu Themen-Foren
  • Anzahl an Kommentaren

Außerdem werden aus den Artikeln die sogenannten Keywords extrahiert: eine Liste mit Schlagwörtern, die im <meta>-Tag der Webseite Anhaltspunkte gibt, auf welche Themen ein Artikel Bezug nimmt. Ein Rechtsklick auf einen Artikel und die Auswahl von "Seitenquelltext" offenbart recht weit oben im html-Code die hierfür vergebenen Keywords:

<meta name="keywords" content="...">

Die Datenbank sagt: Mehr als 41.000 unterschiedliche Keywords wurden in den fünf Jahren angewendet, von denen jedoch mehr als 30.000 jeweils nur ein einziges Mal auftraten. Die 100 meistverwendeten Keywords aus dem Jahr 2020 lassen sich zum Beispiel wie folgt darstellen:

Das Jahr 2020 in einem Bild: 100 Keywords

Zur Dominanz von „Apple“ und „Coronavirus“ kommen wir weiter unten. Zunächst soll ein Blick darauf geworfen werden, wie die Autoren der News-Artikel mit diesen Keywords umgehen. Es zeigt sich nämlich, dass in den Artikeln deutlich unterschiedliche Anzahlen an Keywords verwendet werden. Mit den Informationen der Datenbank lassen sich zudem auch typische Artikellängen pro Autor feststellen.

Anzahl Worte und Keywords: Autoren haben ihre Vorlieben

Dargestellt sind Häufigkeitsverteilungen der fünf meist-publizierenden Autoren im Heise-Newsticker. Die Balken in den rechten Grafiken geben dabei die Verteilung der Artikel dieser Autoren nach Anzahl der eingetragenen Keywords wieder. Die Balken in den linken Diagrammen zeigen die Verteilung ihrer Artikel nach deren Länge (in Anzahl Worte). Die dunkle Linie entspricht der durchschnittlichen Anzahl an Kommentaren auf diese Artikel und liefert damit einen Anhaltspunkt für das Interesse der Leserschaft.

Zum einen fällt auf, dass die verschiedenen Autoren deutlich unterschiedliche, für sie jeweils typische Artikellängen-Muster erzeugen – durchaus erklärlich aufgrund der unterschiedlichen Themengebiete der Autoren. Außerdem zu erkennen: Ganz offensichtlich werden längere Artikel im Durchschnitt auch von intensiveren Diskussionen unter den Lesern begleitet. Zum anderen zeigt sich, dass die Häufigkeitsverteilung für die Vergabe von Keywords zwischen den Autoren deutlich unterschiedlich sind. Es scheint keine redaktionelle Vorgabe oder eine Tool-Unterstützung für Keyword-Vergaben zu geben, die hier eine glättende Wirkung haben würde oder zumindest Fälle mit keinem oder über 20 Keywords verhindert. Die Autoren scheinen hier ihre eigenen Gepflogenheiten zu haben und im Datensatz sind sie gegebenenfalls sogar daran wiederzuerkennen: eine Art Keyword-Fingerprinting.

Schon mit diesen einfachen Histogrammen lassen sich also erste Einblicke in die Redaktion herausarbeiten. Spannend werden Analysen darüber hinaus, wenn verschiedene Eigenschaften der Artikel in neuer Form kombiniert werden. So lässt aus den Daten zum Beispiel herleiten, welcher Autor innerhalb der Heise-Redaktion für welche Themen zuständig ist – ganz ohne Blick in das Impressum:

Die Themengebiete der Redakteure und Redakteurinnen mit den meisten Artikeln.

Diese Heatmap listet in der Vertikalen die 15 meist-verwendeten Keywords auf und in der Horizontalen die meist-schreibenden Autoren dazu; die Färbung der einzelnen Flächen gibt jeweils die Anzahl der Artikel an. Datenbasis sind hier wieder alle News-Artikel der Jahre 2015 bis 2019. In diesem Bild kann sehr schön nachvollzogen werden, welche Themen in der Regel von welchen Autoren abgedeckt werden und es kann somit als eine Art Inhaltsverzeichnis des Newstickers dienen: Hier kann für zukünftige Artikel jeder einfach mal nachschauen, ob ein Autor in seinem Thema schreibt oder vielleicht gerade Urlaubsvertretung macht.

Apropos Urlaub: Auch Abwesenheits- und übliche Arbeitszeiten sind in der Menge der publizierten Artikel recht einfach zu identifizieren:

Kernzeit der Heise-Redaktion: 06:00-18:00

Aufgetragen ist hier zunächst jeweils die Anzahl veröffentlichter Artikel pro Autor und Stunde des Tages. In der Redaktion geht es demnach zwischen 6 und 7 Uhr morgens los und während alle ihre Mittagspause einhalten, legt einer erst richtig los. Diese Daten basieren in diesem Fall auf Artikeln von 2016 bis 2018 und zeigen eine gewisse Arbeitsteilung zwischen vormittags und nachmittags.

Eine leicht geänderte Ansicht kann weitere Informationen liefern:

Artikel pro Woche: Auszeiten, Urlaub oder neue Mitarbeiter werden sichtbar

Hier ist nun die Anzahl veröffentlichter Artikel der Autoren über Kalenderwochen aufgetragen. In diesem Bild wird ein typisches Phänomen in Datensammlungen deutlich: Eine einzelne Aktion einer Person – hier die Veröffentlichung eines News-Artikels – wirkt zunächst unverfänglich. Findet diese Aktion aber häufig oder gar regelmäßig statt und hinterlässt dabei digitale Spuren – in diesem Fall den Veröffentlichungszeitpunkt – offenbart schon das Ausbleiben dieser Aktionen etwas über die Person. Somit verraten die weißen Flecken in diesem Bild Urlaube, Krankheitsphasen, Einstiege und Auszeiten der Redakteure.

Zeitpunkt und Autor sind für einen News-Artikel durchaus sinnvolle und wichtige Informationen; in der Summe können sie aber auch Einblicke in das Privatleben der Redakteure ermöglichen.

Genauso liefern solche Daten aber auch Einblicke in die Technik der Systeme. So findet sich in der Datenbank für April 2020 folgende Anomalie:

Technische Probleme und Downtime am 13.4.2020

Die obere Grafik zeigt den üblichen Verlauf der Aktivität im Leserforum in Kommentaren pro Stunde; in diesem Fall ab dem 5. April 2020 in der oberen Grafik. Die untere Grafik zeigt die darauffolgende Woche ab dem 12. April. Es fällt auf, dass es am Montag, dem 13. April vormittags zu einem deutlichen Einbruch der Kommentierung gekommen ist. Selbst mit dem Feiertagseffekt für diesen Ostermontag lässt sich dieser Verlauf nicht erklären, wie auch der Vergleich mit Karfreitag zeigt. Am Dienstag scheinen die Server weiterhin leichte Probleme zu haben und der Mittagslast nicht ganz Stand zu halten. Mittwoch gab es dann offensichtlich eine geplante Downtime von 17:00 bis 18:00. In der Folge ist danach wieder die übliche Wochentagsaktivität in den Artikelforen zu erkennen. Laut den Daten seit 2015 ist dies tatsächlich der einzige gravierende Ausfall des Heise-Forums und offensichtlich auch die einzige, geplante Downtime. Zu den Problemen am Montag gab es einen Hinweis von Jürgen Kuri im Forum „Newsticker allgemein“; zur 17-Uhr-Wartung am Mittwoch – in der auch keine neuen Artikel eingestellt wurden – ließen sich leider keine Informationen in der Datenbank finden.

Zwischendurch ein kleiner Blick hinter die Bühne: Für Projekte wie dieses bedarf es keiner komplexen Technik. HeiseMining läuft auf einem kleinen Linux-Rechner mit einer MySQL-Instanz als zentralen Ablageort der Daten. Verschiedene perl-Scripte greifen auf die Heise-Seiten zu und extrahieren die gewünschten Informationen, wobei jeweils ein Monat aus dem News-Archiv zurzeit verarbeitet wird. Für spätere Detailanalysen werden sämtliche Artikelseiten zudem als .html-Datei gesichert. Die Sichtung der Daten erfolgt entweder direkt durch geeignete SQL-Abfragen oder über eine Visualisierung mit Grafana. Zudem kommt Kibana für einen Großteil der hier gezeigten Darstellungen und Aggregationen zum Einsatz; den Export aus MySQL in ElastikSearch-Indizes erledigt Logstash. Schon mit diesem überschaubarem Toolset lassen sich interessante Erkenntnisse generieren, Vermutungen hinterfragen oder Prognosen erstellen.