In Maschinenschrift

Weil die Wikipedia an ihre Grenzen stößt, sollen Computerprogramme das Online-Lexikon weiterschreiben. Das ändert unseren Zugang zu Wissen grundlegend.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • Anton Weste

Stellen Sie sich eine Welt vor, in der das gesamte Wissen der Menschheit jedem frei zugänglich ist. Das ist unser Ziel!" Die Vision von Wikipedia-Gründer Jimmy Wales hat eine Online-Enzyklopädie hervorgebracht, die über 40 Millionen Artikel in fast 300 Sprachen umfasst. Eine gewaltige Erfolgsgeschichte.

Allerdings nur dann, wenn man die richtige Sprache spricht: Bengali beispielsweise ist die Muttersprache von über 215 Millionen Menschen, doch die bengalische Wikipedia weist gerade einmal 42000 Artikel auf – weniger als ein Hundertstel der Artikel in der englischen Wikipedia. Und das ist nicht das einzige Beispiel. Über die Hälfte der Wiki-Sprachversionen besitzt weniger als zehn aktive Autoren und zeigt ein entsprechend rudimentäres Angebot.

Weil das Wikipedia-Projekt nicht genügend Freiwillige findet, soll jetzt Software das Versprechen vom universellen, freien Zugang zu Wissen einlösen. Das Ziel: Programme, die Wikipedia-Artikel bei Bedarf in allen möglichen Sprachen vollautomatisch aus einer Datenbank heraus generieren können. "Die Automatisierung ist die einzige Möglichkeit, um 300 Sprachversionen der Wikipedia aktuell zu halten", sagt der Informatiker und Ontologe Denny Vrandečić, Gründer der Datenplattform Wikidata. In der von Wikimedia Deutschland gestarteten Datenbank sind Fakten und Daten für Wikipedia-Artikel in sämtlichen verfügbaren Sprachen zentral gespeichert – in einer maschinenlesbaren und sprachunabhängigen Form.

Zahlreiche programmierte Bots nutzen die Wikidata und andere Datenbanken bereits jetzt, um beispielsweise in Artikeln Infokästen zu erstellen. Einer der produktivsten, "Lsjbot" aus Schweden, kann pro Tag bis zu 10000 rudimentäre Wikipedia-Einträge erstellen – etwa über wenig bekannte Schmetterlingsarten, zusammengetragen aus taxonomischen Katalogen.

Reichhaltig oder schön zu lesen sind Lsjbots Ausführungen nicht. Ein typischer Artikel klingt übersetzt ins Deutsche so: "Erysichton elaborata ist eine von Lucas 1900 beschriebene Motte. Erysichton elaborata ist in der Gattung Erysichton und der Familie der Bläulinge enthalten. Es sind keine Unterarten aufgelistet. Es wird diskutiert, ob es sich um eine eigene Art handelt, oder ob sie eine Unterart von Erysichton palmyra ist."

Dennoch besteht mittlerweile der Großteil der schwedischen Wikipedia aus diesen knappen Lsjbot-Artikeln. Die schiere Menge hievt die schwedische Sprachversion auf Platz zwei der Wikipedien mit den meisten Artikeln weltweit.

Doch solche Bots sind bislang Insellösungen, die nur Symptome bekämpfen. Vrandečić verfolgt eine grundlegendere Strategie. Eine zentrale "interlinguale Wikipedia" soll den Kern der einzelsprachlichen Enzyklopädien bilden. Sie erfasst Objekte aus Wikidata und anderen Quellen und erstellt intern Artikel in universalsprachlicher Form. Dazu soll sich das Interlingua-Wiki eines semantischen Regelwerks bedienen, das jede denkbare sprachliche Bedeutung ausdrücken kann und Doppeldeutigkeiten natürlicher Sprachen vermeidet – eine wichtige Voraussetzung zur maschinellen Lesbarkeit.

Ob im Deutschen eine Bank ein Sitzmöbel oder ein Geldinstitut ist, erschließt sich nur aus dem Kontext. Maschinelle Übersetzungen müssen solche Feinheiten in verschiedenen Sprachen berücksichtigen. In der Interlingua-Wiki sollen dagegen alle Begriffe eindeutige Eigenschaften zugewiesen bekommen. Schon der Universalgelehrte Leibniz hatte im 17. Jahrhundert den Traum von solch einer idealen, weil logischen, kompletten und unmissverständlichen Universalsprache. Im Web 3.0 könnte dieser Traum Realität werden.

Ein Interlingua-Artikel lässt sich bei Aufruf automatisch in jede gewünschte Sprache umwandeln. Übersetzungen von einer Zielsprache in eine andere sind damit unnötig. Die universalsprachliche Wiki soll die Wikipedia-Autoren nicht überflüssig machen. Zum einen braucht es Beitragende, die das Interlingua-Wiki bearbeiten und aktuell halten. Zum anderen können sich Autoren der einzelnen Wikipedien stärker bevorzugten Spezialthemen ihres Sprachgebiets widmen.

Noch ist das Projekt in der Planungs- und Prototypenphase. Wie bei der Etablierung von Wikidata hofft Vrandečić auf einen Konsens in der Wikipedia-Gemeinschaft und Gelder von der Wikimedia Foundation. Viele Wikipedia-Autoren sehen eine umfassende Automatisierung der Online-Enzyklopädie allerdings kritisch. Als das Gerücht aufkam, die Wikimedia Foundation würde die Erstellung von computergenerierten Artikeln aus Wikidata im großen Stil vorantreiben, wies Wikipedia-Gründer Jimmy Wales dies als "unnötig paranoid" zurück.

Kein Wunder, denn eine verstärkte Automatisierung könnte die Bemühungen unterlaufen, neue Autoren für die Wikipedia zu gewinnen – und vor allem zu halten. "Das ist ein sehr kontroverses Thema innerhalb der Wikimedia", sagt Wikidata-Projektmanagerin Lydia Pintscher. "Wir müssen es – insbesondere mit Wikidata-Unterstützung – attraktiver machen, in Wikipedia zu editieren." Maschinengeschriebene Texte hätten zudem noch eine zu geringe sprachliche Qualität. Darunter leide das Bild der Wikipedia als vertrauenswürdige, hochwertige Wissensquelle.

In vielen Nachrichtenredaktionen sind Roboterautoren allerdings mittlerweile etabliert. Wettermeldungen, Sportberichterstattungen, Polizeimeldungen und Promi-News entstehen bereits automatisiert auf der Grundlage von Datensets "Textautomatisierung hat nichts mit minderer Qualität zu tun", sagt Saim Rolf Alkan, Geschäftsführer von AX Semantics, auf dem Frankfurter Tag des Online-Journalismus.

Das Unternehmen bietet beispielsweise die vollautomatische Erzeugung von Produktbeschreibungen in Online-Shops an. Leser können in A/B-Tests einen maschinengeschriebenen Text nicht sicher vom Text eines Menschen unterscheiden. Vrandečić ist etwas vorsichtiger. "Komplett schematische Informationen wie biologische Taxa eignen sich gut, um Artikel zu generieren", sagt er. Doch bei komplexen Artikeln mit einer Narration wie beispielsweise Zweiter Weltkrieg bleiben handgeschriebene Artikel automatisch generierten Artikeln noch lange Zeit überlegen."

Eine Wikipedia mit komplett automatisiertem Gerüst könnte jedoch nicht nur Sprachbarrieren aufheben, sondern die Einträge viel stärker auf die jeweiligen Leser zuschneiden. Weiß das Lexikon etwa, dass gerade Schulkinder davorsitzen, könnte es einen Sachverhalt in sehr viel einfacherer Sprache schildern als für Studierende. Doch auch diese Entwicklung ist nicht ganz unproblematisch.

Denn solch eine automatisch "personalisierte" Wikipedia könne dazu führen, dass die bekannte Filterblasenproblematik aus sozialen Netzwerken sich bis in den Bereich enzyklopädischen Wissens ausdehnt: "Wir bekommen nur noch das angezeigt, von dem ein Algorithmus glaubt, dass es am besten zu uns passt", warnt er. "Aber die individuelle Darstellung hat ethische Grenzen", so Vrandečić. "Ich würde Leuten nicht aufgrund ihrer politischen Ansichten, zum Beispiel zum Klimawandel, unterschiedliche Artikel anzeigen." (anwe)