c’t-Textmining: Wir zählen Wörter aus 40 Jahren c’t

Beim c’t-Textmining haben wir kuriose und interessante Funde zutage gefördert. In Wortwolken bebildern wir, wie sich das Themenspektrum von c’t entwickelt hat.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
, KI Midjourney  Bearbeitung: c‘t

(Bild: KI Midjourney | Bearbeitung: c‘t)

Lesezeit: 9 Min.
Inhaltsverzeichnis

Die Redaktion beschäftigt sich in diesem Jubiläumsheft mit sich selbst und kramt im Archiv nach alten Artikeln, packt Anekdoten aus, die es wert sind, nochmal erzählt zu werden und gibt Ihnen einen Blick hinter die Kulissen. Georg Schnurer hat bereits erzählt, wie die Begriffe "Schwuppdizität" oder die "Hommingberger Gepardenforelle" ihren Weg in c’t gefunden haben. Dieser Artikel richtet den quantitativen Blick auf den c’t-Wortschatz und schürft im Textkorpus von vier Jahrzehnten nach Datengold.

In der ersten c’t-Ausgabe 12/1983 tummeln sich prominent Drucker, Programme, Bits, Zeichen, Bilder, Zeilen und BASIC. Von Windows und Linux ist keine Rede, aber es gibt Artikel über Apple. Keine Überraschung: Computer ist das häufigste Wort.

Mein Kollege Achim Barczok hatte die Idee zum c’t-Textmining. Wäre es nicht spannend, mal durchzuzählen, ob in vier Jahrzehnten c’t öfter "Windows" oder "Linux" gedruckt wurde? Wenig überraschend hat "Windows" mit 203.197 Nennungen das Rennen gemacht. Linux haben wir 61.994 Mal gefunden. Um zu diesen Ergebnissen zu kommen, haben wir uns allerdings nicht mit einem Klemmbrett die Nächte im Archiv um die Ohren geschlagen, sondern von einem Python-Skript helfen lassen. Das Skript durchkämmt JSON-Dateien nach bestimmten Wörtern, die neben Metadaten zu den Artikeln auch den gesamten Inhalt einer c’t-Ausgabe als unformatierten Text enthalten.

Die Formulierung "gedruckt" ist bewusst gewählt, denn längst nicht jedes Wort, das unser Skript zählt, stammt aus der Feder der Redaktion. Deswegen zunächst ein paar Worte zur Qualität der Daten, die sich je nach Zeitraum unterscheidet. Der Textkorpus bis zum Jahr 2015 stammt von der c’t-Archiv-Blu-ray, ab 2016 aus dem Onlineangebot Select und ab der Ausgabe 4/2020 aus Select und unserem internen Produktionssystem XPublisher. Die Texte der Ausgaben 1983 bis 1989 wurden mittels optischer Zeichenerkennung (OCR) gewonnen. Der Scan umfasst das ganze Heft und damit auch (Stellen-)Anzeigen. Weil Wörter häufig auseinanderbrechen, löscht das Skript sämtliche Leerzeichen. Die Ausgaben der Jahre 1990 bis 2007 liegen als HTML vor, damit ist der Textkorpus von höherer Qualität. Längere Artikel haben jedoch Inhaltsverzeichnisse, sodass einige Wörter möglicherweise doppelt gezählt werden. Das c’t-Textmining kann also leider nicht in Anspruch nehmen, eine exakte Wissenschaft zu sein, aber ein Jubiläum ist vielleicht auch eine gute Gelegenheit, fünfe auch mal gerade lassen zu sein. In jedem Fall reicht es, um beispielsweise Trends aufzuzeigen. c’t-Lieblinge, wie die besagte Schwuppdizität, mit der nicht in Anzeigen geworben wird, können außerdem sehr genau beziffert werden. In diesem Fall auf 62 Mal.

In der c’t 1/1990 regieren Byte, KByte, MByte und MHz. Festplatten mit mehreren Gigabyte Speicherplatz und Prozessoren jenseits der Gigahertz-Mauer sind noch Zukunftsmusik.

Beginnen wir mit etwas Selbstkritik. Als Redaktion bemühen wir uns stets um einen kreativen Schreibstil, Originalität und Abwechslung in unseren Artikeln. Es gibt allerdings eine Reihe von Begriffen, die stets drohen, Überhand zu nehmen. Eines der beliebtesten (Fantasie-)Tiere in c’t ist der Platzhirsch, den wir 484-mal gezählt haben. Seine Population wäre vermutlich um ein Vielfaches höher, würden die Gegenleser, das interne Lektorat bei c’t, ihn nicht so gewissenhaft bejagen. Ansonsten würde er vielleicht irgendwann andere Tiere, wie den Pinguin (750), die Schnecke (347), den Wurm (944), das Chamäleon (125), die Datenkrake (114) und das Gnu (inklusive GNU 3267) aus dem Ökosystem c’t verdrängen. Mit den 34.348 Mäusen wird er es aber wohl kaum aufnehmen können. Die Beutelratte war stets ein seltenes Tier (12) und trat schwerpunktmäßig dann auf, wenn die CeBIT in Hannover ihre Türen für Besucherscharen öffnete. Seit Jürgen Kuri im Bereich "aktuell" der c’t 7/2014 über den Umbau der CeBIT zur Fachbesuchermesse berichtete und fragte "Keine Beutelratten mehr auf der CeBIT?" wurde sie nur noch ein Mal als PlayStation-Maskottchen Crash Bandicoot gesichtet. Komplett ausgedacht ist die "Hommingberger Gepardenforelle", die Jo Bager für einen Webseiten-Optimierungswettbewerb erfand. Der getüpfelte Fantasiefisch regte seinen Kopf 60-mal aus der Textflut.

Noch lange vor der Zeit, in der die E-Autos zum Objekt der Berichterstattung geworden sind, häufte sich der Bolide in c’t, der insgesamt 671-mal vorkam und gerne mit einem Bindestrich an Prozessoren, Kameras, Smartphones, Fernseher und Laptops geklebt wird. Seine goldene Ära erlebte der Bolide von 1992 bis 2010, wo er durchschnittlich 1,34-mal pro Ausgabe gedruckt wurde. Seitdem ist es ruhiger auf den Straßen geworden. Ab 2010 fährt er nur noch in etwa jeder dritten Ausgabe vor.

In den 2000ern wurden viele Mails verschickt und Brandmauern gegen Spam errichtet. In c’t 1/2000 geht es um das Internet, Copyright, Windows und Linux.

Bei einem Blick in die Daten könnte man vermuten, dass die c’t-Redaktion in der Ausgabe 13/2009 einen Schwerpunkt zu einem maritimen Thema verfasst hat. Ganze elfmal segelte das Flaggschiff in diesem Heft, und zwar in den Flotten von Sony Ericsson, Intel, AMD, Canon, LG und HP. Damit liegt die Ausgabe deutlich über der durchschnittlichen c’t, die ungefähr zwei Flaggschiffe pro Heft zählt. Nebenbei erwähnt ging es im Titelthema um die Abwehr von Betrügern im Netz. Manchmal kommt dem Flaggschiff auch ein g abhanden. Das falsche "Flagschiff" haben wir insgesamt 20-mal aufgespürt.

Auch der Bastelcomputer Raspberry Pi scheint Tippfehler magisch anzuziehen. Neunmal schaffte es "Rasberry" ins Heft. Der "Rasbperry" rutschte zweimal durch die Qualitätskontrolle. Die Temperatur von Prozessoren wird regelmäßig unter Volllast gemessen, dabei geht aber ab und zu das dritte l verloren. Seit der Rechtschreibreform 1996 gilt das als Fehler. Mit 110 Nennungen nach 1996 ist "Vollast" wahrscheinlich der häufigste Tippfehler in c’t. Umgerechnet auf die 829 Ausgaben, die Eingang in den Datensatz gefunden haben, sind das aber nur 0,16 Nennungen pro Ausgabe.

Die Wortzählung hilft beim Nachspüren von Trends und Umbrüchen in der Entwicklung von Computertechnik, beispielsweise wenn man sich Speicherplatz und Taktfrequenzen ansieht. In diesem Fall stören auch die in der Textsammlung enthaltenen Anzeigen weniger. In der Ausgabe 12/1992 war erstmals öfter von MByte als von KByte die Rede. Auf den Seiten der c’t 16/2006 lösten die GByte die MByte ab und in c’t 7/2018 setzten sich erstmals die TByte an die Spitze, wahrscheinlich beflügelt durch den NAS-Schwerpunkt der Kollegen Christof Windeck, Andrijan Möcker, Ernst Ahlers und Lutz Labs.

Zu Zeiten der c’t 1/2010 wird schon lange mit Euro bezahlt. Die kleinen Netbooks spielen heute als Produktkategorie eine Statistenrolle, feiern im Titelthema der Ausgabe aber noch einen Auftritt als "Mobile Preisbrecher".

Bei den Taktfrequenzen erreichen die Nennungen von GHz und MHz das erste Mal in der Ausgabe 17/2002 einen Gleichstand. In seiner Kolumne Prozessorgeflüster schrieb Andreas Stiller damals: "Motorola führt den ersten Prozessor mit e500-Core und 1 GHz Takt ein (zumindest auf dem Papier) und Suns Server durchbrechen jetzt endlich die Gigahertz-Mauer."

Seit jeher hilft c’t den Lesern, ihre Computer gegen Cyberschurken, Malware und Müllschwemme aus dem Netz zu verteidigen. Mit dem Textmining lässt sich gut aufzeigen, wie sich die Bedrohungslage über die Jahre verändert hat. In den frühen 2000er-Jahren war der nervige Spam das dominierende Thema in diesem Bereich, bevor die Trojaner ab 2005 begannen, sich auf Festplatten der Nutzer und den Seiten der c’t auszubreiten. Ransomware, also Verschlüsselungstrojanern, widmet c’t erstmals in der Ausgabe 7/2016 ein Titelthema. Dennis Schirrmacher warnte damals: "Verschlüsselungs-Trojaner sind in der Malware-Szene der letzte Schrei." Seitdem ist die Ransomware ein lästiger Weggefährte der Redaktion.

Die c’t 1/2020 handelt vom c’t-Raspion, aber auch von Öko-Smartphones und erklärt, wie Facebook schlanke Apps programmiert. Die Wortwolken zeigen, wie sich das Themen-spektrum über die Jahrzehnte erweitert hat.

Bis jetzt haben wir bestimmte Wörter im gesamten Datensatz gesucht und miteinander verglichen, aber was kommt heraus, wenn man einfach alle Wörter in einem Heft zählt und dann gewichtet? Dabei haben wir uns vom Python-Wordcloud-Generator unter die Arme greifen lassen, der nach einigen Handgriffen ansehnliche Wortwolken in Form des c’t-Logos produziert. Je größer ein Wort in der Wolke abgebildet ist, desto häufiger steht es im Heft. In dieser Form kann man gut nachvollziehen, wie sich das Themenspektrum der c’t über die Jahre gewandelt und verbreitert hat.

Das Titelblatt der jeweiligen Ausgabe dient als Farbmaske und beeinflusst die Farbe der Wörter. Herausgefiltert haben wir eine lange Liste sogenannter Stoppwörter, denn Wolken, die hauptsächlich aus "der", "die", "das" bestehen, geben wenig Aufschluss über die Inhalte des jeweiligen Heftes. Die Liste wurde von Hand durch HTML-Versatzstücke und Wortfetzen, die durch das OCR-Verfahren entstanden sind, erweitert. Als Anschauungsmaterial haben wir uns die Ausgaben 12/1983, 1/1990, 1/2000, 1/2010 und 1/2020 herausgesucht. Wir wünschen viel Freude beim in die Wolken gucken!

c't Ausgabe 12/2023

(Bild: 

c't 12/2023

)

Mit unserer Jubiläumsausgabe 12/23 feiern wir den 40. Geburtstag von c't! In diesem Heft schwelgt die Redaktion in Erinnerungen, erzählt Anekdoten und stellt sich vor, wirft aber auch den Blick in die Zukunft und bietet spannende Einblicke hinter die Kulissen. Lesen Sie, wie c't testet, lernen Sie unsere Labore kennen begleiten Sie einen c't-Artikel von der Idee bis zum Druck. Dazu stellen wir unsere liebsten Gadgets- und Software-Tools für Arbeit und Freizeit vor und es gibt jede Menge Artikel zum Schmunzeln. Das und noch viel mehr lesen Sie in c't 12/23!

(ndi)