Literaturforscher wollen mit Text-Mining den "Bestseller-Code" geknackt haben

Vorab zu wissen, welches Buch sich gut verkauft, ist für Verlage von hohem wirtschaftlichen Wert. Ein Forscher-Duo der Stanford University und der University of Nebraska versucht, diese Frage mit Datenanalysen zu klären.

81

13.12.2016, 09:35 Uhr

Lesezeit: 2 Min.

MIT Technology Review

Von

Sascha Mattke

"Bucherfolge entstehen nicht beliebig, und der Buchmarkt ist nicht so unberechenbar, wie viele meinen", schreiben Jodie Archer und Matt Jockers in ihrem im Herbst erschienenen Buch "The Bestseller Code". Mit Textanalysen an einem Querschnitt aus 5000 im US-Handel verfügbaren Büchern haben die beiden Literaturforscher von Stanford University und University of Nebraska ein "Bestseller-ometer" entwickelt, das mit 80 Prozent Trefferquote voraussagen soll, ob ein Buch in die Bestseller-Liste der New York Times kommt oder nicht. Das berichtet Technology Review online in "Wie man einen Bestseller schreibt".

Archer ist ehemalige Lektorin, Literaturdozentin an der Stanford University und Buch-Forscherin bei Apple. Jockers arbeitet als Englisch-Professor an der University of Nebraska. Beide beschäftigen sich seit einigen Jahren mit computergestützten Literaturanalysen. Die Idee zu dem Versuch, technisch das Wesen von Bestsellern zu ergründen, kam im Jahr 2010 von Archer, schreiben sie in dem Buch. Jockers dagegen habe bis dahin eher daran gedacht, mit Computerhilfe Werke von hohem literarischen Wert zu identifizieren.

Das Modell, mit dem sie Verkaufserfolge systematisch vorhersagen wollen, arbeitet unter anderem mit reinen Zählungen – ermittelt also, wie häufig bestimmte Worte und Satzzeichen in einem Text vorkommen und wie lang die einzelnen Sätze sind. Außerdem ließen Archer und Jockers ihre Computer herausfinden, welche Passagen von negativen und welche von positiven Stimmungen geprägt sind. Am rechenintensivsten war das so genannte "dependency parsing" zur Bestimmung der grammatikalischen Struktur von Sätzen. Insgesamt identifizierten Archer und Jockers 28.000 verschiedene Merkmale, die sie im nächsten Schritt auf 2799 besonders relevante eingrenzten und weiter analysierten.

Mehr dazu bei Technology Review online: