Missing Link: Grassroot-KI – Afrikas Aufholjagd bei Künstlicher Intelligenz

Seite 3: Masakhane: We build together

Masakhane-Mitgründerin Jade Abbot beschreibt das Ziel des Netzwerks als "die Entwicklung von NLP von Afrikanern für Afrikaner in Afrika." Der Anlass für die Gründung war laut der Informatikerin ein Blick auf eine Karte zu NLP-Veröffentlichungen weltweit. Afrika war darauf ein riesiger weißer Fleck, obwohl der Kontinent 2000 verschiedene Sprachen spricht. 75 davon werden von mehr als einer Million Menschen gesprochen. Viele Länder haben zehn oder mehr Sprachen. Auch eine Reihe nicht-lateinischer Schriften gibt es, etwa die äthiopische Silbenschrift.

Um die "weiße Landkarte" zu füllen, bedürfe es nach Ansicht von Abbott und einigen Mitgründern einer großen grenzüberschreitenden Anstrengung. Die Resonanz gibt den Gründern recht: über tausend Mitglieder gehören heute zum Netz und kümmern sich um mehr als 40 Sprachen in fast ebenso vielen Ländern. Anders als bei vergleichbaren Initiativen außerhalb des Kontinents gehe es bei Masakhane nicht darum, einfach nur die statistisch besonders häufig gebrauchten Sprachen auszuwählen und abzuarbeiten. Vielmehr entschieden Wissenschaftler, Informatiker, Sprach- und Kulturwissenschaftler vor Ort, worum man sich kümmert, sagte Abbot während einem ihrer vielen Auftritte.

Denn natürlich bemüht sich unter anderem auch Googles Team um die Integration nicht-europäischer Sprachen in seine Übersetzungsbots. 2022 fügte das Unternehmen eigens zehn zusätzliche afrikanische Sprachen hinzu. Insgesamt erlaubt Google Translate nun Übersetzungen in knapp zwei Dutzend afrikanische Sprachen. Fehlerfrei sind diese nicht, wie das Beispiel "Masakhane" selbst zeigt. Es ist isiZulu und heißt, wie das Netzwerk auf seiner Webseite erklärt, soviel wie "wir bauen zusammen". Google Translate übersetzt es hingegen mit "lasst uns zusammenkommen."

Datensets und Kolonialgeschichte

Eine Herausforderung für Masakhane besteht darin, dass Trainingsdaten in vielen afrikanischen Sprachen bei allem Sprachreichtum des Kontinents ein rares Gut sind. Im Internet sind die Sprachen kaum vertreten. Die "Netze" von Web Crawlern bleiben dementsprechend leer auf ihren Fischzügen. NLP-Forscher sprechen von "ressourcenarmen Sprachen". Es fehlt an originären Inhalten genauso wie an Wörterbüchern, in denen Sprache annotiert und kategorisiert wird.

"Viele Länder des Globalen Südens waren Kolonien, und das hat die Verfügbarkeit von Quellen für die entsprechenden Sprachen beeinflusst", sagt Marivate. Nicht selten sei in den Schulen der von Kolonialmächten beherrschten Länder das Sprechen der eigenen Sprache verboten gewesen, erklärte der Informatikprofessor, der Chair of Data Science an der Universität von Pretoria ist.

Sprachdaten, die man heute zu Trainingszwecken für Sprachmodelle heranziehe, seien nicht selten Bibelübersetzungen christlicher Missionare. Das könne zu religiöser Schlagseite führen. "Wir müssen sehen, wie wir damit umgehen", sagte Marivate.

Je länger man allerdings warte mit der Restaurierung und Entwicklung der eigenen Sprachressourcen, desto teurer werde es, so seine dringende Warnung. Seit dem Ende der Apartheid vor über dreißig Jahren habe man Pläne, etwa im Bildungsbereich Vielsprachigkeit und die entsprechenden Unterrichtsmittel einzuführen, aus Kostengründen immer wieder verschoben. "Am Ende ist das wie eine weit überzogene Kreditkarte. Die Schulden werden immer höher." Am Ende könnte der Kontinent ohne Entwicklung der eigenen digitalen Sprachressourcen doch zum Abladeplatz für Technologie aus dem Globalen Norden werden.

Gewinner und Verlierer (Anzahl der Sprachen, Anzahl der Sprecher und Prozentsatz der Gesamtsprachen für jede Sprachklasse)

(Bild: Under-resourced Languages (PDF))

Gemeinschaftswerk

Masakhane kümmert sich daher um alles, angefangen vom Sammeln der Daten. Marivati besorgte sich etwa die Nachrichtentexte des Südafrikanischen Rundfunks in den elf Sprachen Südafrikas. Dann wird annotiert, dazu wurden Studierende ins Boot geholt. Extradaten holte man sich aus Bibelübersetzungen und auch einem berüchtigten Datensatz, den zwei Forscher aus den parallel in 343 Sprachen veröffentlichten Webartikeln der Zeugen Jehovas gewonnen haben. Im Ergebnis wurden Nachrichten-Snippets in den südafrikanischen Sprachen mit über 60-prozentiger Genauigkeit kategorisiert, berichtet Marivate, ein Anfang. "Wir sind noch nicht bei über neunzig, aber wir arbeiten daran", erklärte er.

Weitere Arbeiten aus dem Kreis der Masakhane-Mitglieder haben bereits untersucht, wie gut die mit Bibel-lastigen Daten trainierten Modelle für Nachrichtentexte wirken. Es wird erforscht, wie sich die erarbeiteten Modelle auf nicht im ursprünglichen Trainingsset enthaltene Sprachen übertragen lassen. Auch bei der Erkennung von Namen in einem Satz afrikanischer Sprachen hat man Grundlagenarbeit geleistet. Die neuen Datensets sollen ebenso wie die Modelle in der Regel jedermann zur Verfügung gestellt werden.

Laut Abbott ist dafür auch in der Zusammenarbeit mit Partnern wie Google Vorsicht geboten. Gerne würden die Big-Tech-Unternehmen nämlich dazu einladen, die gemeinsam von Sprachwissenschaftlern und weiteren Partnern mühsam zusammengetragenen Daten an den hauseigenen Modellen der Datenriesen auszuprobieren. Dann wollen sie aber auch, dass die kleinen afrikanischen Partner Non-Disclosure-Agreements (NDA) unterschreiben. Die Gefahr liegt laut Abbott darin, dass am Ende dann der große Partner lizenziert und den Zugang beschränkt.

Das widerspricht der Philosophie der "Masakhanier". Denn sie wollen ja gerade eine Basis für KI im eigenen Kontinent schaffen und gehen dabei auch eigene Wege in ihren Publikationen. Statt wie in der traditionellen Wissenschaft üblich, werden in Masakhane-Papers nicht nur die schreibenden Autoren gelistet, sondern alle, die zur Forschung beigetragen haben. Manches Paper hat an die 50 Autoren.

Die Gemeinschaftsidee funktioniert gut. Für 2023 hat man sich wieder eine lange Liste von Forschungsprojekten vorgenommen. Unter anderem steht die automatisierte Erkennung von Hatespeech in 18 afrikanischen Sprachen auf der To-do-Liste. Außerdem geplant ist die automatisierte Übersetzung wissenschaftlicher Papers, oder doch wenigstens der Abstracts, in verschiedene afrikanische Sprachen – zur Dekolonialisierung des Wissenschaftsbetriebs.

Das Ökosystem von GrassrootAI laut Jade Abbott

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}