Der digitale Wortklauber

Ob "Riester-Rente" oder "Bezahlfernsehen": Eine neue Software, die Abermillionen Sätze automatisch analysiert, hilft Autoren von Wörterbüchern bei der Suche nach neuen Begriffen.

vorlesen Druckansicht 86 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Andrea Löbbecke
  • dpa

Ob Euroland, K-Frage, Riester-fähig oder doppelklicken: Autoren von Wörterbüchern sind ständig auf der Suche nach neuen Begriffen und durchforsten dafür den Blätterwald. Hilfe bei der aufwendigen Wortklauberei haben nun Wissenschaftler der Universität Stuttgart entwickelt. Die Forscher des Instituts für maschinelle Sprachverarbeitung stellten am Donnerstag ein Computerprogramm vor, das Millionen von Wörtern rasch lesen und nach bestimmten grammatikalischen oder lexikalischen Phänomenen sortieren kann.

"Das Besondere an der Software ist, dass sie auch Beziehungen zwischen Wörtern erkennen kann", erklärt der wissenschaftliche Leiter des Projekts, Christian Rohrer. Der Professor für Computerlinguistik arbeitet bei dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Transferprojekt mit den Wörterbuchredaktionen der Verlage Langenscheidt und Brockhaus (Duden) zusammen. Die Basis der Suche bildet ein rund 200 Millionen Wörter großer "Corpus neutrum" -- laut Duden eine als Datenbank angelegte Sammlung von Texten. "Diese Menge entspricht etwa 500.000 Buchseiten und könnte ohne Computer nur schwer durchgesehen werden", sagt Rohrer.

In diese Textsammlung fließen unter anderem ganze Zeitungsjahrgänge der "Frankfurter Rundschau", der "taz" und des "Handelsblatts". Die Software der Stuttgarter Wissenschaftler kann auch Sätze zerlegen und zweigeteilte Verben wie in dem Satz "Er gab seine Steuererklärung ab." erkennen. "Das Programm weiß: Dieses Verb heißt eigentlich 'abgeben'", erklärt die wissenschaftliche Mitarbeiterin Heike Zinsmeister.

Die Methode ist nach den Worten der Sprachwissenschaftler unter anderem wichtig, um die Häufigkeit bestimmter Wortkombinationen zu testen: Wird etwa in deutschen Zeitungen häufiger "die E-Mail" oder "das E-Mail" geschrieben? Wird die Hoffnung eher "in" oder "auf" etwas gesetzt? Diese Informationen sind für Wörterbuchmacher wichtig. Sie bilden ein Kriterium für einen Eintrag in ein Nachschlagewerk.

So entscheidet die Häufigkeit von neu entstandenen Begriffen wie etwa Riester-Rente oder Bezahlfernsehen mit darüber, ob die Wörter in ein Lexikon aufgenommen werden. Auf der anderen Seite kann das Computerprogramm auch die Lexikon-Karriere eines Ausdrucks beenden, wenn Wörterbücher elektronisch mit dem Corpus abgeglichen werden. Kommt ein Begriff in den Millionen von Wörtern gar nicht mehr vor, kann es gut sein, dass er als veraltet eingestuft und gestrichen wird.

"Die Zukunft von Wörterbüchern liegt im Computer", sagt Professor Rohrer. Das elektronische Medium biete mehr Platz als das gedruckte Buch. Mit einer guten Software könne dort schneller und detaillierter nachgeschlagen werden. Problemlos könnten Ausschnitte aus Zeitungsartikeln veranschaulichen, "wie es richtig heißen müsste". Auch aus einem "Nebenprodukt" der großen Wortsuche können Rohrer zufolge noch wertvolle Informationen gezogen werden: Die Häufigkeit bestimmter Tippfehler sei wichtig für die Entwicklung von Rechtschreibprogrammen. (Andrea Löbbecke, dpa) / (jo)