Lernstoff: So sammeln KI-Trainer Daten für Künstliche Intelligenzen

Für das Trainieren von Algorithmen für künstliche Intelligenz sind große Mengen an Daten erforderlich. Liegen die nicht passend vor, arbeiten Forscher mit raffinierten Umwegen.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Tricks zum Daten-Sammeln

(Bild: "Coding" / Christiaan Colen / cc-by-sa-2.0)

Lesezeit: 5 Min.
Von
  • Karen Hao
Inhaltsverzeichnis

Daten sind das Öl, das als Treibstoff für die Weiterentwicklung von KI dient. Sie bringen uns viele der neuen Möglichkeiten, die wir inzwischen für selbstverständlich halten: YouTube-Untertitel, Spotify-Musikempfehlungen, die lästigen Anzeigen, die einen durch das Internet verfolgen.

Beim Sammeln der benötigten Daten aber müssen KI-Experten oft kreativ werden. Zum Beispiel im Bereich der Verarbeitung natürlicher Sprache (NLP), einem Untergebiet der KI, in dem Computer lernen, menschliche Sprache zu analysieren. Bei der Conference on Empirical Methods in NLP, präsentierten Experten jetzt eine große Bandbreite an Forschungsergebnissen, die auf genialen Konzepten zur Datensammlung beruhten. Im Folgenden stellen wir einige davon vor.

Mehr Infos

Ein Fachbeitrag zu multilingualer NLP in diesem Jahr kam von Microsoft und befasste sich mit der Verarbeitung von Äußerungen in „gemischtem Code“, also Texten oder mündlichen Aussagen, die zwischen zwei Sprachen wechseln. Angesichts der Tatsache, dass mehr als die Hälfte der Weltbevölkerung multilingual ist, ist dieser bislang relativ selten untersuchte Bereich von großem Interesse.

Zunächst nahmen sich die Forscher Spenglish vor (die Mischung von Spanisch und Englisch), aber sie hatten nicht genügend Text in Spenglish, um ihr System zu trainieren. So häufig gemischter Code in multilingualen Gesprächen ist, so selten findet er sich in Texten. Also schrieben die Forscher ein Programm, mit dem sie englische Texte in den Übersetzungsdienst von Microsoft Bing eingaben und einige Passagen aus deren spanischer Übersetzung wieder in den englischen Text einfügten. Das Programm achtete darauf, dass die ausgetauschten Worte und Ausdrücke dieselbe Bedeutung hatten. Und schon hatte das Team so viel Spenglish, wie es nur wollte

Die Leistung ihres NLP-Modell war daraufhin besser als bei früheren Modellen, die mit Spanisch und Englisch einzeln trainiert worden waren. Die Forscher hoffen, dass ihre Arbeit dazu beiträgt, multilinguale Chatbots zu entwickeln, die ganz natürlich in code-gemischter Sprache kommunizieren können.

Rezepte sind eine gute Hilfe beim Kochen, aber sie können auch als Futter für Maschinen dienen. Sie sind stets in einzelnen Schritten aufgebaut und enthalten Bilder, die auf den Text abgestimmt sind – eine hervorragende Quelle für strukturierte Daten, wenn man Maschinen beibringen möchte, Texte und Bilder gleichzeitig zu verstehen. Aus diesem Grund haben Forscher der Universtät Hacettepe in der Türkei eine riesige Datensammlung mit rund 20.000 illustrierten Rezepten zusammengestellt. Sie hoffen, dass diese zu einer neuen Ressource für den Vergleich der Leistungsfähigkeit von gleichzeitiger Text- und Bilderkennung wird.

Die „RecipeQA“ genannte Sammlung basiert auf früheren Arbeiten, bei denen maschinelles Lesen und Sehen einzeln erforscht wurden. Im ersten Fall muss die Maschine eine Frage und eine Text-Passage verstehen, um die Antwort zu finden; im zweiten Fall sucht sie die Antwort stattdessen in einem Foto. Wenn Texte und Fotos direkt nebeneinander stehen, erhöht sich die Komplexität der Aufgabe, weil die Inhalte ergänzende oder doppelte Informationen enthalten können.

Google will erreichen, dass KI Ihren Schreibstil verbessert. Dafür haben Forscher des Unternehmens die größte Datensammlung aller Zeiten für das Unterteilen langer Sätze in kürzere mit der gleichen Bedeutung geschaffen. Und wo findet man riesige Mengen an editierten Texten? Richtig, bei Wikipedia.

Aus der umfangreichen Editier-Historie von Wikipedia extrahierte das Team Fälle, bei denen Bearbeiter lange Sätze aufgeteilt hatten. Das Ergebnis: 60-mal mehr Beispiele für aufgeteilte Sätze mit 90-mal mehr Worten darin als bei den früheren Referenzen für diese Aufgabe. Außerdem umfasst die Datensammlung mehrere Sprachen.

Als die Forscher ein Maschinenlern-Modell mit ihren neuen Daten trainierten, kam es auf 91 Prozent Genauigkeit (dieser Prozentsatz steht für den Anteil an Sätzen, die nach dem Umschreiben ihre Bedeutung behielten und grammatikalisch korrekt blieben). Zum Vergleich: Ein mit früheren Daten trainiertes Modell kam nur auf 32 Prozent. Als die Forscher beide Datensätze kombinierten und ein weiteres Modell damit trainierten, erreichten sie 95 Prozent Genauigkeit. Ihre Schlussfolgerung: Zukünftige Verbesserungen sind möglich, wenn noch mehr Datenquellen gefunden werden.

Wie Studien gezeigt haben, kann unsere Sprache Hinweise auf Herkunft, Geschlecht und Alter geben, auch wenn diese Informationen nicht explizit vorliegen. Vor diesem Hintergrund haben Forscher an der Bar-lan Universität in Israel und am Allen Institute for Artificial Intelligence versucht, Texte mit Hilfe von KI von derartigen Verzerrungen zu befreien. Dazu entfernten sie eine Reihe von versteckten Indizien daraus.

Um genügend Daten mit den Sprachmustern unterschiedlicher Bevölkerungsschichten zu bekommen, nutzten die Forscher Twitter. Sie sammelten eine Reihe von Tweets von Nutzern, die gleichmäßig verteilt waren zwischen nicht hispanischen Weißen und nicht hispanischen Schwarzen, Männern und Frauen sowie zwischen Personen zwischen 18 und 34 Jahren und über 35-Jährigen.

Mit Hilfe eines „adversialen“ Ansatzes, bei dem zwei neuronale Netze gegeneinander antreten, prüften die Forscher dann, ob sie die Demografie-Indikatoren in den Tweets automatisch entfernen konnten. Eines der beiden neuronalen Netze versuchte, die Demografie vorherzusagen, das andere versuchte, den Text komplett neutral zu machen, um die Trefferquote des ersten Netzes auf 50 Prozent (also den Zufallswert) zu drücken. Auf diese Weise wurden Hinweise auf Ethnie, Geschlecht und Alter deutlich reduziert, aber nicht vollkommen eliminiert.

(sma)