Wikipedia-Datenfundus Wikidata geht in den Regelbetrieb

Bisher mussten Wikipedianer jedes Mal per Hand hunderte von Sprachversionen aktualisieren, wenn eine berühmte Persönlichkeit starb oder die politische Führung eines Landes wechselte. Das soll nun anders werden.

In Pocket speichern vorlesen Druckansicht 61 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Torsten Kleinz

Die Online-Enyzklopädie Wikipedia kann nun in allen Sprachversionen auf die strukturierten Daten der Faktenddatenbank Wikidata zugreifen. Nach einem Jahr Vorarbeiten kann die Online-Enzyklopädie damit die nächste Entwicklungsstufe anstreben. Damit das klappt, müssen die freiwilligen Autoren aber Wege finden, den Datenfundus richtig zu nutzen.

"Wikidata ist ein mächtiges Werkzeug, um Informationen in allen Sprachversionen von Wikipedia aktuell zu halten," erklärt die Geschäftsführerin der Wikimedia Foundation, Sue Gardner. "Vor Wikidata mussten Wikipedianer jedes Mal per Hand hunderte von Sprachversionen aktualisieren, wenn eine berühmte Persönlichkeit starb oder die politische Führung eines Landes wechselte."

Nun können solche Informationen direkt aus der zentralen Fakten-Datenbank entnommen und in die Artikel in den verschiedenen Wikipedia-Ausgaben integriert werden. Bereits zu über acht Millionen Objekten haben Wikipedianer ein Faktengrundgerüst zusammengetragen. Im Wikidata-Eintrag zu Russland sind zum Beispiel viele Informationen von den Teilrepubliken über das Wappen Russlands bis hin zu OpenStreetMap-Referenzen aufgeführt.

Die Community der Wikipedia-Autoren muss nun Wege entwickeln, wie diese Informationen in Artikel integriert werden können. Heute bereits online ist die relativ unproblematische Einbindung von Sprachlinks auf den gleichen Artikel in anderen Sprachversionen. Aber schon hier kommt es zu Inkonsistenzen: Wenn in einer Sprachausgabe in einem Artikel Themen zusammengefasst sind, die in anderen Wikipedia-Ausgaben auf zwei oder mehrere Artikel verteilt sind, kann der Sammelartikel nicht überall verlinkt werden, da jeweils nur eine Übersetzung vorgesehen ist. So existieren in Wikidata gleich vier verschiedene Einträge zu "Harlem Shake", doch nur einige Sprachversionen haben ebenfalls vier Artikel zum Thema.

Gleichzeitig müssen sich die Autoren Gedanken machen, welchen Stellenwert sie Wikidata geben wollen: Zwar lassen sich Wikidata-Informationen prinzipiell überall in Artikeln integrieren: So könnte in den Fließtext zum Internet-Konzern Yahoo automatisch der Name der Konzernchefin Marissa Mayer integriert werden. Vorgesehen ist aber erst einmal die Verwendung in Infoboxen am Rand des Artikels. Hier ergibt sich aber das Problem, dass die Informationen in der Infobox sich vom daneben stehenden Fließtext unterscheiden.

Damit die Rohdaten auf sinnvolle Weise angezeigt werden können, müssen die Wikipedia-Autoren Templates für insgesamt 280 Sprachversionen entwickeln, die die Information in angemessener Weise präsentieren. Diese Arbeit geht allerdings nur langsam voran: So wurden in der englischen Wikipedia bisher nur Templates entwickelt, um Informationen in der Film-Datenbank IMDB zu verlinken. Um komplexere Einbindungen zu erreichen, steht den Template-Entwicklern die Skriptsprache Lua zur Verfügung. Damit könnte beispielsweise interaktives Kartenmaterial in die Artikel eingebunden werden.

Auch Projekte außerhalb von Wikipedia können auf die Daten zugreifen. "Es ist das Ziel von Wikidata, das komplexe Wissen der Welt auf strukturierte Art und Weise zu sammeln, damit jeder davon profitieren kann", sagt Projektleiter Denny Vrandečić. Um die Verwendung zu vereinfachen, stehen die Daten unter der CC0-Lizenz, die das Kopieren der Informationen ohne Quellenangabe und ohne freie Lizenz erlaubt. Das Wikidata-Team entwickelt im nächsten Schritt Verfahren, die Datenbank als Quelle für automatisierte Listen auszubauen.

Siehe dazu auch:

(anw)