In Maschinenschrift

Weil die Wikipedia an ihre Grenzen stößt, sollen Computerprogramme das Online-Lexikon weiterschreiben. Das ändert unseren Zugang zu Wissen grundlegend.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 3 Min.
Von
  • Anton Weste

Stellen Sie sich eine Welt vor, in der das gesamte Wissen der Menschheit jedem frei zugänglich ist. Das ist unser Ziel!“ Die Vision von Wikipedia-Gründer Jimmy Wales hat eine Online-Enzyklopädie hervorgebracht, die über 40 Millionen Artikel in fast 300 Sprachen umfasst. Eine gewaltige Erfolgsgeschichte.

Allerdings nur dann, wenn man die richtige Sprache spricht: Bengali beispielsweise ist die Muttersprache von über 215 Millionen Menschen, doch die bengalische Wikipedia weist gerade einmal 42000 Artikel auf – weniger als ein Hundertstel der Artikel in der englischen Wikipedia. Und das ist nicht das einzige Beispiel. Über die Hälfte der Wiki-Sprachversionen besitzt weniger als zehn aktive Autoren und zeigt ein entsprechend rudimentäres Angebot.

Weil das Wikipedia-Projekt nicht genügend Freiwillige findet, soll jetzt Software das Versprechen vom universellen, freien Zugang zu Wissen einlösen. Das Ziel: Programme, die Wikipedia-Artikel bei Bedarf in allen möglichen Sprachen vollautomatisch aus einer Datenbank heraus generieren können. „Die Automatisierung ist die einzige Möglichkeit, um 300 Sprachversionen der Wikipedia aktuell zu halten“, sagt der Informatiker und Ontologe Denny Vrandečić, Gründer der Datenplattform Wikidata. In der von Wikimedia Deutschland gestarteten Datenbank sind Fakten und Daten für Wikipedia-Artikel in sämtlichen verfügbaren Sprachen zentral gespeichert – in einer maschinenlesbaren und sprachunabhängigen Form.

Zahlreiche programmierte Bots nutzen die Wikidata und andere Datenbanken bereits jetzt, um beispielsweise in Artikeln Infokästen zu erstellen. Einer der produktivsten, „Lsjbot“ aus Schweden, kann pro Tag bis zu 10000 rudimentäre Wikipedia-Einträge erstellen – etwa über wenig bekannte Schmetterlingsarten, zusammengetragen aus taxonomischen Katalogen.

Reichhaltig oder schön zu lesen sind Lsjbots Ausführungen nicht. Ein typischer Artikel klingt übersetzt ins Deutsche so: „Erysichton elaborata ist eine von Lucas 1900 beschriebene Motte. Erysichton elaborata ist in der Gattung Erysichton und der Familie der Bläulinge enthalten. Es sind keine Unterarten aufgelistet. Es wird diskutiert, ob es sich um eine eigene Art handelt, oder ob sie eine Unterart von Erysichton palmyra ist.“

Dennoch besteht mittlerweile der Großteil der schwedischen Wikipedia aus diesen knappen Lsjbot-Artikeln. Die schiere Menge hievt die schwedische Sprachversion auf Platz zwei der Wikipedien mit den meisten Artikeln weltweit.

Doch solche Bots sind bislang Insellösungen, die nur Symptome bekämpfen. Vrandečić verfolgt eine grundlegendere Strategie. Eine zentrale „interlinguale Wikipedia“ soll den Kern der einzelsprachlichen Enzyklopädien bilden. Sie erfasst Objekte aus Wikidata und anderen Quellen und erstellt intern Artikel in universalsprachlicher Form. Dazu soll sich das Interlingua-Wiki eines semantischen Regelwerks bedienen, das jede denkbare sprachliche Bedeutung ausdrücken kann und Doppeldeutigkeiten natürlicher Sprachen vermeidet – eine wichtige Voraussetzung zur maschinellen Lesbarkeit.

(anwe)