KI-Update Deep-Dive: Was KIs lesen
Die Trainingsdaten einer generativen KI sagen viel über ihr vermeintliches Verständnis der Welt aus.
Lesen bildet, so eine landläufige Meinung. Doch wenn Maschinen Millionen von Webseiten und Hunderttausende Bücher verschlingen, werden sie nicht unbedingt schlauer. Hartmut Gieselmann, Redakteur der c’t, hat für Ausgabe 24/2023 einen Blick ins Bücherregal der großen Sprachmodelle geworfen und erzählt im KI-Update, was er dort gefunden hat.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Die kommerziellen Anbieter generativer KI wie OpenAI lassen sich da ungern ins Nähkästchen schauen. Aber wenn man auf der Website Hugging Face die mehr als 60.000 Einträge mit Trainingsdaten für Open-Source-Sprachmodelle durchkämmt, sieht man bei einigen auch, welche Modelle damit trainiert werden, erklärt der Experte. „Wenn man sich die verschiedenen Trainingsdaten genauer anschaut, wird klar, dass eigentlich alles, was nicht bei drei auf den Bäumen ist, aus dem Internet irgendwie heruntergescraped wird.“
Eine ganz große Sammlung von KI-Texten ist der sogenannte Common Crawl. Common Crawl ist eine nicht-kommerzielle Organisation in den USA, die alle ein, zwei Monate quasi eine Kopie des Internets als KI-Trainingsdatensatz veröffentlicht. Für Übersetzungs-Modelle nutzen Entwickler auch gern die Übersetzungen der Europäischen Union, denn dort werden alle Reden oder Gesetzesentwürfe direkt in allen Amtssprachen veröffentlicht. „Das sind dann auch die meisten deutschen Texte, wenn man auf Hugging Face guckt“, so Gieselmann.
Darin zeigt sich aber auch schon das erste Problem vieler Sprachmodelle, denn sie lernen das Meiste in englischer Sprache. Darum sind die englischen Antworten auch oft korrekter oder zumindest eleganter formuliert. Darüber hinaus enthalten die abgegrasten Webseiten aus dem Internet oft viel Unsinn, mit dem die Sprachmodelle gefüttert werden. Im Podcast erklärt der c’t-Redakteur verschiedene Möglichkeiten, wie in diesen Trainingsdatenbanken die Spreu vom Weizen getrennt werden kann, „aber aufgrund der schieren Menge der Daten ist das, wie ein grober Rechen in einer Kläranlage. Das Wasser würde man danach nicht trinken wollen.“
Je mehr wir also über die Qualität der Trainingsdaten großer Sprachmodelle wissen, desto eher können wir einschätzen, wie zuverlässig die KI mit uns arbeitet, gibt Gieselmann zu bedenken. „Je mehr Erfahrungen wir mit diesen KI-Maschinen sammeln, desto genauer wissen wir, wofür wir sie nicht einsetzen sollten. Und das ist eigentlich auch ein ganz guter Erkenntnisgewinn.“ (igr)