Wie KI-Forscher sich die nötigen Trainingsdaten verschaffen

Künstliche Intelligenz braucht zunächst einmal viele passende Daten für das Trainieren der Algorithmen. Wenn sie nicht vorliegen, greifen Forscher zu Tricks.

In Pocket speichern vorlesen Druckansicht 15 Kommentare lesen
Wie KI-Forscher sich die nötigen Trainingsdaten verschaffen

(Bild: "Coding" / Christiaan Colen / cc-by-sa-2.0)

Lesezeit: 2 Min.
Von
  • Sascha Mattke

Für das Trainieren von Algorithmen für künstliche Intelligenz (KI) sind große Mengen an Daten erforderlich. Weil die nicht immer in der passenden Form vorliegen, arbeiten Forscher mit Umwegen. Bei der Conference on Empirical Methods in NLP Anfang November präsentierten Experten eine große Bandbreite an Forschungsergebnissen im Bereich der Verarbeitung natürlicher Sprache, die auf raffinierten Konzepten für die Datensammlung beruhten. Das berichtet Technology Review online in „Tricks zum Daten-Sammeln“.

Forscher von Microsoft etwa wollten bessere Daten für die Auswertung von Äußerungen in „gemischtem Code“, also zwei Sprachen abwechselnd. Zum Beispiel „Spenglisch“, also eine Mischung aus Spanisch und Englisch, kommt in der realen Welt häufig vor, in schriftlichen Texten aber nur selten. Also gaben die Forscher englische Texte in eine Spanisch-Übersetzungsmaschine ein und fügten Teile des Ergebnisses wieder in das Original ein – und schon hatten sie so viel Spenglisch, wie sie nur wollten.

KI-Forscher bei Google wiederum versuchten sich daran, automatisch lange Sätze in mehrere kurze mit der gleichen Bedeutung zu unterteilen, damit sie besser verständlich werden. Als Datenquelle dafür nutzen sie Wikipedia – die Editier-Historie der Online-Enzyklopädie enthält reichlich Beispiele für sprachliche Verbesserungen durch kürzere Sätze bei gleichbleibendem Inhalt. Das Ergebnis dieser Auswertung waren 60-mal mehr Beispiele für aufgeteilte Sätze mit 90-mal mehr Worten darin als bei den früheren Referenzen für diese Aufgabe. Als die Forscher ein Maschinenlern-Modell mit ihren neuen Daten trainierten, kam es auf 91 Prozent Genauigkeit.

Mehr dazu bei Technology Review online:

(sma)