Text Mining für das Internet

Ein deutsches Unternehmen arbeitet an einer semantischen Suchmaschine, die auf Erkenntnissen aus der Hirnforschung aufbaut und auch den Kontext eines Suchbegriffes berücksichtigt. Anfang 2007 soll die Technik online gehen.

vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 6 Min.

Die Welt der Suchmaschinen ist geteilt. Auf der einen Seite gibt es fleißige, aber relativ schlicht gestrickte Verfahren, die große Teile des Internets durchsuchen und nach bestimmten Algorithmen bewerten, wie zum Beispiel Google. Auf der anderen Seite gibt es Systeme, die Inhalt und Bedeutung von Texten zu extrahieren suchen, aber wegen der erforderlichen Rechenleistung und Handarbeit bisher nur in begrenzten Datenräumen wie Unternehmensarchiven zu Hause waren („Text Mining“). Die Firma Interactive Systems mit Sitz in Berlin und Marburg arbeitet nun daran, mit den Methoden des Text Minings eine Suchmaschine für das offene Internet aufzubauen.

„Im ersten Halbjahr 2007 wollen wir eine semantische Suchmaschine ins Netz stellen“, sagt Martin Hirsch, Chef der Interactive Systems. Sie wird sich an eine klar umrissene Patientengruppe richten und keine freie, sondern nur eine stichwortbasierte Suche erlauben. Dafür soll sie aber sämtliche deutschsprachigen Webseiten durchforsten und Ergebnisse präsentieren, die nicht nur den Kontext der Suchanfrage berücksichtigen, sondern auch die inhaltlichen Beziehungen der Suchterme zueinander. Das genaue Geschäftsmodell für die Suche steht nach Angaben Hirschs noch nicht fest.

Basis dafür ist ein Verfahren, dass nach Angaben Hirschs an die Erkenntnisse aus der Hirnforschung angelehnt ist und dadurch deutlich schlanker, schneller und präziser arbeitet als herkömmliche Text-Mining-Ansätze. In einem ersten Schritt werden dazu die Fachbegriffe aus einem Text extrahiert und nach bestimmten Kriterien wie der Häufigkeitsverteilung geordnet. Als nächstes werden diese Kandidaten in einen inhaltlichen Zusammenhang gebracht. Wenn zwei Wörter mit der Phrase „ist ein“ verbunden sind, handelt es sich um Über- und Unterbegriffe. Wenn die Verteilung von zwei unterschiedlichen Worten nahezu identisch ist, sind es höchstwahrscheinlich Synonyme.

Das Ergebnis dieser Schritte ist ein Wortnetz („Thesaurus“) des jeweiligen Fachgebiets. Bevor ein Begriff in diesen Thesaurus aufgenommen wird, muss ein menschlicher Bearbeiter über ein Web-Interface dessen Korrektheit bestätigen. Vollautomatisch ist das System also nicht, höchstens dreiviertelautomatisch. Hirsch beziffert den Aufwand für den Aufbau einer „großen Fachdomäne“ auf „wenige Tage.“ „Prinzipiell ginge es auch ohne Thesaurus, das ist aber eine Frage der Rechenkapazität“, so Hirsch. „Alleine das Thema Diabetes hat mehrere Millionen semantischer Zusammenhänge, und dafür bräuchte man mehrere Gigabyte Arbeitsspeicher.“

Die Liste der Konzepte (Wörter und ihre Synonyme) wird von einem so genannten tf-idf-Parser („term frequency – inverse document frequency“) nach ihrer Wichtigkeit bewertet. Die Maßeinheit dafür ist die Häufigkeit eines bestimmten Terms in einem Dokument im Verhältnis zu seiner generellen Häufigkeit im gesamten Korpus. Wenn also ein bestimmtes Konzept überproportional häufig in einem Text vorkommt, ist es von zentraler Bedeutung für dessen Inhalt. So können die Sätze und Absätze identifiziert werden, die zur Bedeutung des gesamten Textes am meisten beitragen.

„Damit könnten wir bereits eine automatische Zusammenfassung erstellen, aber das ist gar nicht unser Ziel. Wir wollen die tieferen Zusammenhänge erfassen“, sagt Hirsch. Dazu werden die zentralen Sätze „geparst“, also die syntaktischen in logische Zusammenhänge umgewandelt. Dazu wird derzeit noch ein handelsüblicher linguistischer Parser benutzt, aber Hirsch arbeitet an einer Neuentwicklung, die auch die vorangegangen Sätze berücksichtigt. Syntaktische Mehrdeutigkeiten wie „Peter sah Heike mit dem Fernglas“ lassen sich auflösen, indem berücksichtigt wird, ob in einem früheren Satz erwähnt wird, ob Peter oder Heike ein Fernglas hat.

Als Ergebnis dieser Prozesse entsteht ein semantisches Netz, dass die Beziehungen (Kanten) aller zentralen Konzepte (Knoten) zueinander darstellt. Es wird in einer Form kodiert, die mit RDF (Resource Description Framework), der Sprache des Semantic Web, kompatibel ist. Dabei sind die Kanten durch zwei Faktoren bestimmt: einem semantischen („verursacht“, „ist Teil von“) und einem numerischen, der angibt, wie häufig und in wie vielen verschiedenen Beziehungen zwei Konzepte zusammen auftauchen.

Der Vorteil dieser Mischung aus semantischen und numerischen Angaben: Es können sowohl häufige und schwache als auch seltene und starke Relationen erfasst werden. Anders als neuronale Netze und ähnlich dem menschlichen Geist kann das System so nicht nur durch ständige Wiederholung, sondern auch durch prägnante Einzelfälle lernen. „Wenn irgendwo in der Literatur ein Zusammenhang zwischen Dopamin und Amylasen beschrieben wird, finden wir ihn“, so Hirsch.

Die Oberfläche für den Nutzer unterscheidet sich zunächst wenig von den klassischen Suchmaschinen. Allerdings gibt es einen zweiten Suchschlitz für den Kontext. So kann der Suchende seine Fragen von vorneherein auf „Jaguar / Katze“ oder „Jaguar / Auto“ eingrenzen. Als Ergebnis präsentiert das System eine nach dem Zusammenhang geordnete Liste der Fundstellen. Hirsch: „So lässt die Ergebnismenge schnell und zielgerecht verkleinern oder ausweiten.“

Als Vorteil seines Verfahrens gegenüber vergleichbaren Text-Mining-Ansätzen nennt Hirsch vor allem die bessere Performance: „Wir haben in 15 Millisekunden eine kontextsensitive Antwort aus einem Korpus von zweieinhalb Millionen Texten. Das geht mit datenbankbasierten Verfahren nicht.“ Weitere Alleinstellungsmerkmale seien die Unempfindlichkeit gegenüber Widersprüchen sowie die Pflegeleichtigkeit, wenn ein Thesaurus erst einmal erstellt worden sei.

Neben der avisierten Webseite widmet sich Interactive Systems vor allem den klassischen Bereichen des Text Minings, den Wissenbeständen von Unternehmen. Die erste große Installation der Technologie erfolgte nach Angaben von Hirsch beim Pharmakonzern Aventis. Derzeit seien Pilotprojekte bei Altana und B.Braun im Gange. Im Rahmen des EU-Projektes BioSIM werde das System dazu eingesetzt, Daten und Informationen aus der Literatur zu extrahieren, die nützlich für die mathematische Simulationen biomedizinischer Vorgänge sein könnten.

Mit dem Springer-Medizin-Verlag in Heidelberg werden derzeit Szenarien entwickelt und erprobt, wie aus der Kombination von semantischer Suche und Inhalten des Verlages neue Informationsprodukte für die Medizin entstehen können. Mit Unternehmen aus dem Umfeld der elektronischen Patientenakte werde zudem eruiert, wie Ärzte bei Diagnose und Therapie unterstützt werden können.

Eine andere Anwendung entfernt sich vom klassischen Text Mining. „Wir können mit einem Knoten repräsentieren, was wir wollen – auch Bilder“, sagt Hirsch. In der Robotikabteilung von Honda wurde im Rahmen des Pilotprojektes proCog getestet, in wieweit mit den Ansätzen von Interactive Systems explizites Wissen in humanoiden Roboter organisiert und visueller Mehrdeutigkeiten aufgelöst werden können. (nbo)