Tuning für die Wikipedia

Durch semantische Verknüpfungen soll das Online-Lexikon Wikipedia zur Weltwissens-Maschine aufgebohrt werden, die selbständig Einträge sinnvoll gruppieren und ihre Beziehungen zueinander genau abbilden kann.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.

Wäre Arthur Dent eine real lebende Person, würde er sich über einen Eintrag in die Wikipedia-Kategorie „Personen, nach denen Asteroiden benannt wurden“ sicherlich freuen. Doch er existiert nur in der Phantasie, und zwar als Hauptperson der Roman-Serie „Per Anhalter durch die Galaxis“ von Douglas Adams, dem zu Ehren ein 1998 entdeckter Kleinplanet „Arthurdent“ getauft wurde. Doch auch die Wikipedia-Kategorie gibt es, zumindest in der deutschen Version, nur in der Phantasie, denn selbst in der rührigen Wikipedia-Gemeinschaft wollte sich bisher niemand die Arbeit antun, eine solche Liste per Hand zu erstellen.

Eine internationale Gruppe von Wikipedianern arbeitet daran, dass solche Listen künftig automatisch erstellt werden können. Ihr Ziel ist es, den gewaltigen Wissenschatz der Wikipedia besser zu verknüpfen. Denn bisher wird in den Lexikon-Einträgen zwar ausgiebig verlinkt und eingeordnet (Arthur Dent zum Beispiel in die Kategorie „Literarische Figur“), doch der inhaltliche Zusammenhang zwischen den verlinkten Artikeln bleibt offen.

Die zwei zentralen Mittel, mit denen das Semantic-Wiki-Team Sinn und Verstand in den Datenbestand bringen möchte, sind „Typed links“ und „Attributes“. „Typed links“ erweitern die bestehenden Querverweise um inhaltliche Angaben. In der Wikipedia-Schreibweise sähe etwa der Link von Arthur Dent zu Douglas Adams so aus: [[was created by::Douglas Adams]]. Die Art der Beziehung ist dabei frei formulierbar. Das birgt zwar die Gefahr, dass das System zerfasert, indem der eine Nutzer „was created by“ und der nächste „was invented by“ schreibt.

Doch die Macher vertrauen darauf, dass die Gemeinschaft selbst einen einheitlichen Satz von Beziehungen entwickelt und durchsetzt – was bei den klassischen Kategorien ja auch schon funktioniert habe. Die „typed links“ werden ergänzt durch „attributes“. Das sind neu geschaffene Markierungen für Zahlen und Daten, für die es nicht sinnvoll ist, einen Link anzulegen. Die Bevölkerungszahl von San Diego wird beispielsweise als [[population:=1,305,736]] notiert.

Die semantische Verknüpfung der Artikel ergibt eine so genannte Ontologie – ein Netz aus Sachverhalten und ihren Beziehungen zueinander, das bestimmte Wissensbereiche mehr oder weniger genau abbildet. Aus diesem Netz lässt sich neues Wissen ableiten, dass so nie explizit formuliert wurde. Es ließen sich Listen aufstellen aller bulgarischer Tennisspieler unter 20 Jahren, aller Päpste geordnet nach der Dauer ihrer Amtszeit oder aller Oscar-prämierten Filme mit einem James-Bond-Darsteller in der Hauptrolle. Zudem ist die Struktur der Verknüpfung unabhängig von der Sprache. So ließen sich die Wikipedias unterschiedlicher Sprache einfacher homogenisieren.

Die Wikipedia-Ontologie lässt sich auch außerhalb der Enzyklopädie nutzen, denn sie kann im Standard-Format RDF (Resource Description Framework) exportiert werden. Dadurch würde sie eine seit langem bestehende Lücke der Künstlichen-Intelligenz-Forschung schließen. Denn Anwendungen wie Spracherkennung, intelligente Suchmaschinen, automatisches Auffinden von Inhalten in unstrukturierten Texten („Text Mining“) sowie maschinelle Übersetzungen kranken seit Jahrzehnten daran, dass Sprachverstehen nicht ohne Weltverstehen funktioniert.

In den Versuch, Ontologien für solche Anwendungen per Hand aufzubauen, sind vermutlich ganze Mann-Jahrhunderte versenkt worden. Auch der Ansatz, selbstlernende Software sich selbst ihr Weltwissen aneignen zu lassen, hat bisher wenig praxisreifes zu Stande gebracht.

Was die Wikipedia von anderen Versuchen unterscheidet, Ontologie per Hand zu erstellen, ist die schiere Masse der Autoren. Hunderttausende ehrenamtlicher Mitarbeiter steuern ihr Fachwissen bei und überwachen die Einhaltung bestimmter Spielregeln. Doch dieses Potenzial ist gleichzeitig auch das größte Problem bei der Umsetzung der semantischen Wikipedia. Sie kann nur funktionieren, wenn sich eine ausreichend große Zahl von Autoren motivieren lässt, sich über die bestehenden Einträge herzumachen, und dabei auch noch eine gewisse Disziplin wahrt.

Denny Vrandecic vom Institut für Angewandte Informatik und Formale Beschreibungsverfahren der Uni Karlsruhe, der das Semantik-Projekt mit vorantreibt, sagt: „Wir wissen selbst nicht, wie das laufen wird. Es muss halt genügend coole Anwendungen geben.“ Um der Gemeinde die Idee schmackhaft zu machen, wurden beim Artikel über San Diego bereits die gesamte Palette der Möglichkeiten durchexerziert.

Vrandecic und seine Mitstreiter haben die Idee erstmals auf der Wikimania-Tagung 2005 in Frankfurt vorgestellt und sind dabei nach eigenen Angaben auf große Zustimmung gestoßen. Das Projekt soll auf der 15. International World Wide Web Conference vom 23. bis 26. Mai in Edinburgh vorgestellt werden. Unter den Rednern wird auch der als Erfinder des World Wide Web geltende Tim Berners-Lee sein. Die Konferenz ist für Vrandecic in zweifacher Hinsicht ein wichtiges Ereignis: Zum einen, weil das Vorhaben dann zum ersten Mal in großen Rahmen der (Web-)Öffentlichkeit vorgestellt wird. Zum anderen, weil er eine Flasche Wein gewettet hat, dass die semantische Wikipedia bis zur Konferenz läuft.

Bis dahin ist noch viel zu tun. Ihren derzeitigen Stand (zu verfolgen unter http://wiki.ontoworld.org) bezeichnen sie mit der Ziffer 0.4 – also auf dem halben Weg zur ersten vollständigen Version. Noch zu lösen sind unter anderem die Fragen, ob die semantischen Notierungen für alle Nutzer gleichermaßen verständlich sind, wie mit Mehrdeutigkeiten umgegangen wird, wie unterschiedliche Zeitangaben eingebunden und wie Maßeinheiten vereinheitlicht werden können. Doch am meisten Sorge macht Vrandecic, dass die komplexen Abfragen die Rechenleistung der Wikipedia-Server über Gebühr beanspruchen könnten. Schließlich ächzten die Server schon jetzt unter rund 12.000 Anfragen pro Sekunde. „Sobald sich zeigt, dass ein neues Feature auf die Performance schlägt, ist es wieder weg“, so die Erfahrung von Vrandecic.

Aber es geht vorwärts: Im Mai wurde eine Funktion implementiert, mit der Autoren eines Artikels selbst semantische Abfragen an die Wiki-Wissensbasis starten können. Das Projekt wird bereits an immer mehr Stellen eingesetzt, zum Beispiel beim Bibel-Wiki. „Dadurch erhalten wir viel Feedback über die Benutzbarkeit und Stabilität“, sagt Vrandecic.

Noch läuft die Wette, aber die Flasche Wein, gibt Vrandecic zu, wird er „realistisch gesehen“ wohl verlieren. Der „Teufel im Detail“ habe die Entwicklung verlangsamt. Der nächste Meilenstein ist die Wikimania-Konferenz im August in Boston, bei der das Semantik-Team weiter um Unterstützer werben wird. Als Zeitpunkt, an dem das System für die gesamte Wikipedia aktiviert werden soll, gibt Vrandecic nun „in naher Zukunft“ an. (nbo)