KI-Modelle: Es droht ein Mangel an Trainingsdaten

Es gibt zwei Qualitätsstufen von Trainingsdaten für Sprachmodelle: elaborierte Texte oder Nutzerkommentare. Erstere könnten bald knapp werden.

17

(Bild: Black Jack/Shutterstock.com)

28.11.2022, 12:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Tammy Xu

Große Sprachmodelle (Large Language Models, LLMs) sind derzeit eine der spannendsten Entwicklungen im Bereich der KI-Forschung. Zahlreiche Unternehmen arbeiten mit Hochdruck an der Veröffentlichung von Programmen wie GPT-3, die beeindruckend kohärente Artikel und sogar Computercode schreiben können.

Einem Team von KI-Prognostikern zufolge könnte es mit dem steilen Aufstieg aber schon bald vorbei sein: Den Sprachmodellen könnten nämlich die Daten ausgehen, mit denen sie trainiert werden. LLMs werden anhand von Texten aus Quellen wie der Wikipedia, Nachrichtenartikeln, wissenschaftlichen Fachbeiträgen und Büchern trainiert. In den vergangenen Jahren ging der Trend dahin, diese Modelle mit immer mehr Daten zu trainieren, in der Hoffnung, dass sie dadurch genauer und vielseitiger werden.

Das Problem ist, dass diese Daten in naher Zukunft aufgebraucht sein könnten – schon 2026, wie Forscherinnen und Forscher von Epoch, einem Unternehmen für KI-Forschung und -Prognosen, in einer noch nicht von unabhängigen Experten geprüften Studie schreiben. Das Problem ergebe sich aus der Tatsache, dass Forscher, die immer leistungsfähigere Modelle mit größeren Fähigkeiten entwickeln, immer mehr neue Texte finden müssen, um sie zu trainieren. Sie seien deshalb zunehmend besorgt, dass ihnen die Daten ausgehen, sagt Teven Le Scao, ein Forscher des KI-Unternehmen Hugging Face, der nicht an der Untersuchung von Epoch beteiligt war.

KI-Modelle: Hochwertige Trainingsdaten zu finden, ist schwierig

Für das Training der Sprachmodelle teilen die Forscher die Daten zumeist in zwei Kategorien ein: hohe Qualität und niedrige Qualität. Die Grenze zwischen den beiden Kategorien könne zwar fließend sein, sagt Pablo Villalobos, Mitarbeiter bei Epoch und Hauptautor der Studie. Aber Texte aus der ersten Kategorie gelten gemeinhin als besser geschrieben und werden oft von professionellen Autoren verfasst.

Daten mit niedriger Qualität bestehen dagegen aus Beiträgen in sozialen Medien oder aus Nutzerkommentaren auf Websites wie 4chan und Reddit. Sie überwiegen rein zahlenmäßig bei weitem die Daten, die als hochwertig gelten. In der Regel trainieren die Forscher ihre Modelle nur mit hochwertigen Daten, da dies die Art von Sprache ist, die die Modelle später reproduzieren sollen. Das erklärt, weshalb große Sprachmodelle wie GPT-3 so beeindruckende Ergebnisse liefern.

Laut Swabha Swayamdipta, Professorin für maschinelles Lernen an der Universität von Südkalifornien, die sich auf die Qualität von Datensätzen spezialisiert hat, können die möglichen Datenbeschränkungen umgangen werden, indem man die Definition von "niedriger" und "hoher" Qualität neu bewertet. Wenn die Datenknappheit die KI-Forscher dazu bringt, vielfältigere Datensätze in den Trainingsprozess einzubeziehen, wäre das für die Sprachmodelle ein "Nettogewinn", sagt Swayamdipta.

Die Forschenden könnten aber auch versuchen, die Lebensdauer der für das Training von Sprachmodellen verwendeten Daten zu verlängern. Derzeit werden die Large Language Models aufgrund von Leistungs- und Kostenbeschränkungen nur einmal mit denselben Daten gefüttert. Es wäre jedoch möglich, ein Modell mehrmals mit denselben Daten zu trainieren, sagt Swayamdipta.

Manche Expertinnen und Experten glauben zudem, dass groß nicht gleich besser ist, wenn es um Sprachmodelle geht. Percy Liang, Informatikprofessor an der Stanford University, sagt, dass es Hinweise gebe, dass effizientere Modelle ihre Fähigkeiten verbessern können, ohne dass die Modelle dafür vergößert werden müssen. "Wir haben gesehen, dass kleinere Modelle, die auf Daten höherer Qualität trainiert wurden, größere Modelle, die auf Daten geringerer Qualität trainiert wurden, übertreffen können", sagt er.