c't 12/2023
S. 128
Redaktionsleben
Datamining
Bild: KI Midjourney | Bearbeitung: c‘t

c’t-Textmining: Wir zählen Wörter aus 40 Jahren c’t

Welches Tier kommt eigentlich am häufigsten in c’t vor? In welcher Ausgabe war wohl erstmals mehr von Gigahertz als von Megahertz die Rede? Beim c’t-Textmining haben wir allerhand kuriose und interessante Funde zutage gefördert. In Wortwolken bebildern wir, wie sich das Themenspektrum von c’t über die Jahrzehnte entwickelt hat.

Von Niklas Dierking

Die Redaktion beschäftigt sich in diesem Jubiläumsheft mit sich selbst und kramt im Archiv nach alten Artikeln, packt Anekdoten aus, die es wert sind, nochmal erzählt zu werden und gibt Ihnen einen Blick hinter die Kulissen. Georg Schnurer hat auf Seite 132 erzählt, wie die Begriffe „Schwuppdizität“ oder die „Hommingberger Gepardenforelle“ ihren Weg in c’t gefunden haben. Dieser Artikel richtet den quantitativen Blick auf den c’t-Wortschatz und schürft im Textkorpus von vier Jahrzehnten nach Datengold.

In der ersten c’t-Ausgabe 12/1983 tummeln sich prominent Drucker, Programme, Bits, Zeichen, Bilder, Zeilen und  BASIC. Von Windows und Linux ist keine Rede, aber es gibt Artikel über Apple. Keine Überraschung: Computer ist das häufigste Wort.
In der ersten c’t-Ausgabe 12/1983 tummeln sich prominent Drucker, Programme, Bits, Zeichen, Bilder, Zeilen und BASIC. Von Windows und Linux ist keine Rede, aber es gibt Artikel über Apple. Keine Überraschung: Computer ist das häufigste Wort.

Mein Kollege Achim Barczok hatte die Idee zum c’t-Textmining. Wäre es nicht spannend, mal durchzuzählen, ob in vier Jahrzehnten c’t öfter „Windows“ oder „Linux“ gedruckt wurde? Wenig überraschend hat „Windows“ mit 203.197 Nennungen das Rennen gemacht. Linux haben wir 61.994 Mal gefunden. Um zu diesen Ergebnissen zu kommen, haben wir uns allerdings nicht mit einem Klemmbrett die Nächte im Archiv um die Ohren geschlagen, sondern von einem Python-Skript helfen lassen. Das Skript durchkämmt JSON-Dateien nach bestimmten Wörtern, die neben Metadaten zu den Artikeln auch den gesamten Inhalt einer c’t-Ausgabe als unformatierten Text enthalten.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,95 € 0,25 € / Woche

Nach Testphase 2,95 € wtl.

  • Zugriff auf alle c't-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der c't-App für unterwegs
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

5,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten

Kommentieren