HeiseMining: Mit öffentlichen Daten hinter die Kulissen von heise online blicken

Seite 2: Und heise+?

Inhaltsverzeichnis

2019 war das Jahr der Einführung von heise+ und auch diese Daten können wir uns näher anzusehen. Da Artikel aus heise+ nicht im News-Archiv auftauchen, brauchte es einen leicht modifizierten Crawler. Damit kann schnell ermittelt werden: Die Anzahl der News-Artikel wurde von heise+ nicht beeinträchtigt. Auch in 2019 blieb es bei über 10.000 Artikeln und die heise+-Artikel kamen on top.

heise online und heise+ im jährlichen Vergleich

Am 22. Januar 2020 hatte Volker Zota einen Artikel zum ersten Jahrestag von heise+ online gestellt und erwähnte darin unter anderem "über 2600“ heise+-Artikel im ersten Jahr. Dies lässt sich aus der Datenbank wunderbar überprüfen: Zum Jahrestag finden sich tatsächlich 2665 heise+-Artikel. Was aber auffällt, ist eine deutliche Anzahl an heise+-Artikeln, die laut Artikeldatum bereits vor dem Start von heise+ veröffentlicht wurden.

2665 Plus-Artikel verteilen sich auf drei verschiedene Phasen

Konkret: 1674 Artikel tragen ein Datum innerhalb des ersten "heise+-Jahres". Gut 1000 Artikel tragen ein früheres Datum; 624 davon tummeln sich in einem Zeitraum ab Mitte August 2018. Was ist da passiert? Zur näheren Analyse können die Kommentare herangezogen werden, die auf diese Artikel geschrieben wurden; konkret: die Veröffentlichungszeitpunkte dieser Kommentare. Die Annahme ist hier, dass die ersten Kommentare zu einem Artikel jeweils kurz nach dessen Sichtbarkeit für die Öffentlichkeit geschrieben werden; auf keinen Fall davor und selten erst viel später. Grafisch aufgetragen wäre eine Diagonale zu erwarten; es zeigt sich jedoch dieses Bild:

Jeder Punkt repräsentiert den jeweils ersten Kommentar zu einem Artikel; auf der x-Achse ist dabei das Artikeldatum aufgetragen, auf der y-Achse das Kommentar-Datum.

  1. Tatsächlich ist über weite Strecken eine Diagonale zu erkennen: Artikeldatum und Kommentar-Datum korrelieren erwartungsgemäß größtenteils sehr gut.
  2. Für Veröffentlichungszeitpunkte ab Mitte August 2018 erscheinen die ersten Kommentare erst nach dem 22. Januar 2019. Dies führt zu der Vermutung, dass ab 21. August 2019 heise+-Artikel auf Vorrat erzeugt wurden, diese aber erst im Januar sichtbar wurden; eine durchaus verständliche Vorgehensweise, um einen guten Start hinzulegen.
  3. Aber was ist da Mitte 2014 passiert? Nach Datenlage wurden in dieser Zeit Kommentare auf Artikel abgegeben, die noch gar nicht existierten. Ein näherer Blick in die Datenbank zeigt, dass es sich hierbei um Artikel aus dem Bereich c't Fotografie handelt, die bis ins Jahr 2013 zurückreichen. Die Vermutung wäre, dass im April 2014 ein Transfer aus einer anderen Artikeldatenbank stattgefunden hat, bei dem die Kommentar-Daten zwar überlebt haben, aber das Artikeldatum zurückgesetzt wurde.

Es kann also konstatiert werden: Ungefähr 2300 Artikel wurden für das erste „heise+-Jahr“ erzeugt und weitere rund 360 Artikel aus alten Jahren für heise+ neu zugänglich gemacht. Für das zweite heise+-Jahr tendiert es übrigens derzeit in Richtung 1700 Artikeln: Mit Stand Ende November kommen wir auf 1511 heise+-Artikel seit 22. Januar 2020. Insgesamt kommen diese Artikel zum „normalen“ Newsticker hinzu und so addiert sich dies zu stolzen gut 14.000 Artikel in 2020.

Anmerkung der Redaktion: Tatsächlich handelt es sich bei den alten Artikeln von c't Fotografie um welche aus dem Foto-Club – unserm ersten Paywall-Experiment.

Keywords in Artikeln zeichnen nicht nur ein Bild der Redaktion, sondern auch ein Bild des Zeitgeschehens. Am Beispiel der Corona-Pandemie lässt sich zeigen, wie eine Krise auch die Berichterstattung im Newsticker beeinflusst hat.

Artikelmengen und Forenaktivität werden durch Corona dominiert

In diesem Bild sind von oben nach unten für die Jahre 2018, 2019 und 2020 die 15 meist verwendeten Keywords in News-Artikeln in Blau aufgetragen; in Grün jeweils daneben gestellt die Anzahl an Kommentaren, die auf diese Artikel abgegeben wurden. Für 2020 liegen Daten dabei bis einschließlich November vor. Verschiedene Aspekte lassen sich nun ablesen. Zum Beispiel, dass „Apple“ durchgehend (auch in früheren Jahren) auf Platz 1 der Keywords steht. Schaut man tiefer in die Datenbank, so fällt auf, dass „Apple“ ein Sammelbegriff für „Mac“, „iPhone“, „iTunes“ und weitere Keywords ist und nur verhältnismäßig selten allein vorkommt. Die Strahlkraft von „Apple“ ist schon bemerkenswert, relativiert sich bei näherer Betrachtung jedoch schnell.

In der Grafik ebenfalls zu erkennen: ein jeweils typisches Verhältnis zwischen Anzahl Artikel und Anzahl Kommentare. Über die Jahre leicht variierend, aber dennoch mit Tendenz behaftet. Zu „Datenschutz“ wird offensichtlich eher mehr kommentiert, zu „Android“ und „iPhone“ eher weniger. Besonders viel wird ganz offensichtlich aber über „Elektromobilität“ diskutiert; sicherlich ein spannender Ansatzpunkt für weitere Analysen.

Schließlich zeigt sich deutlich, wie die Corona-Krise das Jahr 2020 dominiert: Sowohl Artikel als auch Kommentare zum Keyword „Coronavirus“ stechen sogar „Apple“ aus. 9,2 % aller bis November veröffentlichten 13.500 News auf heise online des Jahres 2020 beschäftigen sich mit Corona-Themen. Hier lohnt sich ein näherer Blick auf diese Keywords.

Die Pandemie im Newsticker

Dieses Bild zeichnet den Verlauf der Pandemie in den Heise-News: Dargestellt sind die 15 meistverwendeten „Corona*“- Keywords wochenweise aufsummiert. Das Keyword „Coronavirus“ hat sich früh als Anker der Berichterstattung etabliert und um den 23. März erreicht es seinen Höhepunkt – zusammen auch mit der Infektionslage. Berichte über die Corona-App starteten Ende März und erreichten ihr Maximum Mitte Juni – just zum Zeitpunkt der Veröffentlichung der App, um danach die Berichterstattung weiter kontinuierlich zu begleiten.

Auch Keywords wie „Pandemie“, „Impfstoff“ oder „Immunität“ werden in diesem Zusammenhang verwendet; diese werden jedoch in nahezu allen Fällen mit „Coronavirus“ kombiniert. Als Randnotiz ebenfalls interessant: von 579 Artikeln mit „Datenschutz“ – immerhin nach „Apple“ das meistverwendete Keyword – befassen sich 99 mit dem „Coronavirus“. Die gesellschaftlichen Diskussionen um die Pandemie schlagen sich in den nackten Zahlen der Metadaten nieder.

Metadaten sind gut geeignet, innere Zusammenhänge zu erkennen. Darüber hinaus sind aber auch die eigentlichen Artikeltexte interessant: Zu künstlich-intelligenten Analysen auf Newsartikeln hat heise online bereits selbst berichtet (automatisierte Vergabe von Keywords). Lesbarkeit-Analysen über Anzahl von Absätzen, Längen und Verschachtelung von Sätzen oder Häufigkeitsverteilung von verwendeten Worten könnten weitere Einblicke in den Schreibstil von Autoren liefern.

Aber mit dem vorhandenen Datensatz lassen sich auch einfachere Fragen klären; zum Beispiel, ob Fußballfelder tatsächlich in den Stand einer SI-Einheit gehoben werden sollten, so wie es das Heise-Forum gerne postuliert. Die Datenbank enthält auch die Texte der Artikel in durchsuchbarer Form. Ergebnis: In den Newsticker-Meldungen aus fünf Jahren finden sich lediglich 14 „Fußballfelder“, die als Maßeinheit verwendet werden. Und unter 173 Artikeln, die in irgend einer Form vom „Saarland“ handeln, verwenden es gerade einmal sechs als Flächenmaß. Auch wenn Hal Faber den Umrechnungsfaktor mit 359.913 Fußballfeldern auf 1 Saarland spezifiziert, zeigt sich doch ein deutlicher Unterschied zwischen objektiver Zählung und subjektiver Wahrnehmung im Heise-Forum.

Analysen dieser Art bringen also Objektivität in die Diskussion, zeigen aber auch gleichzeitig, dass die Arbeit mit Daten durchaus mit viel Handarbeit verbunden ist. Denn während Fußballfelder als Maßeinheit in den Meldungen hauptsächlich gegen eSport-Meldungen abzugrenzen sind, kommt das Wort „Saarland“ in vielerlei Kontext zum Einsatz: In beiden Fällen ist manuelle Prüfung erforderlich.

Ziel dieses Projektes war es, eigene Erfahrungen mit der Auswertung von Metadaten aus allgemein zugänglichen Quellen zu sammeln und zu sehen, welche Erkenntnisse sich daraus gewinnen lassen. Neben rein statistischen Betrachtungen und Auswertungen, die ansonsten nur die Newsticker-Redaktion selbst anstellen könnte, zeigen sich erstaunliche Erkenntnisse und innere Zusammenhänge aus der schieren Menge an Daten. Macht und Nutzen von Daten zeigt sich in solch einem Projekt recht schnell; genauso wie die Verantwortung, die mit ihnen einhergeht: Korrekte Aussagen erfordern korrekte Daten und korrekte Daten erfordern ständige Pflege der Datenbasis. Denn wie bei Software sind auch Datenbanken nicht ohne Fehler: Seien es fehlende Datensätze, falsch aus den Webseiten extrahierte Informationen oder fehlerhaft zugeordnete Daten. Regel Nr. 1 lautet daher: Misstraue Deinen Daten. Wann immer die Analysen überraschende Ergebnisse liefern, verifiziere zunächst die Datenbasis. Erst danach nimm das Ergebnis als Indiz und versuche es durch weitere Analysen zu bestätigen.

Ganz nebenbei entsteht aus den Daten mittlerweile ein Extrakt für eine kleine Online-Recherche-Plattform auf www.heisemining.de, die zum Stöbern in den Metadaten der Artikel der vergangenen Jahre einlädt. Ein Versuch, die kurze Aufmerksamkeitsspanne der Heise-Artikel zu verlängern.

(mho)