Wie Techniken des maschinellen Lernens das Online-Kaufverhalten lenken können

Seite 2: Wörterbuch- und regelbasiert

Inhaltsverzeichnis

Ausgangspunkt dieser Technik ist immer ein Wörterbuch oder eine Taxonomie. In ihnen werden die konkreten Wörter beziehungsweise Schlüsselbegriffe definiert, die aus den Texten extrahiert werden sollen. Dabei lassen sich die Begriffe entweder als Vollformlexikon (alle Beugungen, Deklinationsformen werden separat geführt) oder als Stammformlexikon (es wird nur der Wortstamm eines Begriffs hinterlegt) führen. Mithilfe einer entsprechenden Software kann man dann (Web-)Texte nach diesen Schlüsselbegriffen gezielt durchsuchen. Für den gedachten Webshop ließe sich zum Beispiel konkret nach einem "Faubel Weißer Burgunder" suchen. Der Webshop-Betreiber kann nachfolgend die extrahierten Inhalte aufbereiten und in seine Produktbeschreibung einpflegen.

Vorteile:

  • sehr genaue Suche
  • man findet gut das, was man will

Nachteile:

  • hoher Aufwand für die Pflege
  • anders oder falsch geschriebene Wörter sind schwierig zu extrahieren
  • man findet nur, was definiert wurde

Softwareprodukte, die diesen Ansatz verfolgen, sind:

  • Babelfy: nutzt ein riesiges Lexikon (und Regeln). Für Forschungsbelange ist das Werkzeug frei verfügbar, für andere Anwendungen ist es als kommerzielles Tool erhältlich.
  • PoolParty: ist ein kommerzielles Tool, das semantische Taxonomien (und Regeln) nutzt.

Im Gegensatz zum wörterbuchbasierten NLP ermöglicht das regelbasierte auch das Auffinden von Entitäten, die vorher nicht als konkreter Name, sondern nur als Typ beziehungsweise Kategorie beschrieben wurden. Wenn zum Beispiel im Weinshop ein Vergleich des "Faubel Weißer Burgunder" mit anderen weißen Burgundern erfolgen soll, müsste man beim wörterbuchbasierten Ansatz alle weißen Burgunder namentlich aufführen. Beim regelbasierten NLP dagegen würde man die Kategorie beziehungsweise Entität des "weißen Burgunders" definieren. Die Software würde dann auf Basis der Regeln Texte nach diesem Weintyp durchsuchen und Inhalte zu den Einträgen (zum Beispiel Name, Herkunft, Bewertung, Bouquet) extrahieren.

Dazu definieren Linguisten grammatikalische Regeln für die relevanten Konzepte, mit denen die Entitäten extrahiert werden sollen. Die Formulierung erfolgt in einer Beschreibungssprache oder Code. Zur Konsolidierung der Regeln muss ein möglichst heterogener Datensatz an Weinbeschreibungen vorliegen. Für die qualitative Umsetzung der oben genannten Hintergrundinformationen sollten mindestens zwei Mann-Monate angesetzt werden.

Vorteile:

  • Regeln lassen sich auch definieren, wenn nur wenige Trainingsdaten vorliegen.
  • Im Gegensatz zu den wörterbuchbasierten Verfahren können einfache Relationen zwischen Entitäten und auch Entitäten gefunden werden, die vorher nicht namentlich sondern nur als Typ beschrieben wurden.

Nachteile:

  • sehr hoher Aufwand der Definition von Regeln
  • schlechte Übertragbarkeit zwischen Domänen
  • Regeln können einander beeinflussen und negative Folgen für die Qualität haben
  • große Probleme bei schlechter Grammatik in den Texten

Tools, die diesen Ansatz verfolgen, sind:

  • GATE, im speziellen ANNIE: sehr großes quelloffenes NLP-Framework auch für andere Funktionen neben NER; Regeln werden mittels JAPE, einer Software für maschinengestütztes Beweisen, definiert.
  • Ontotext S4: basiert auf GATE, ist aber kommerziell.
  • Attensity Analyze: nutzt Regeln und etwas maschinelles Lernen, bietet auch eine große Suite für die Textanalyse, ist aber ein kommerzielles Programm.

Die Verarbeitungskette innerhalb von GATE, um zu normalisieren, grammatikalische Features zu erkennen und dann mit Regeln den Text zu annotieren (Abb. 2).

(Bild: GATE)