KI-Training mit synthetischen Daten: "Das Internet kommt ans Fördermaximum"

Große Sprachmodelle werden immer größer – und benötigen mehr und mehr Trainingsdaten. Was passiert, wenn das gesamte Menschheitswissen abgegrast wurde?

In Pocket speichern vorlesen Druckansicht 166 Kommentare lesen
Roboter umrundet von Sprechblasen

Roboter umrundet von Sprechblasen: Ohne Input kein Output.

(Bild: Erstellt mit Midjourney durch heise online)

Lesezeit: 8 Min.
Inhaltsverzeichnis

Forscher Villalobos.

Pablo Villalobos ist Staff Researcher beim KI-Forschungsinstitut Epoch AI im kalifornischen San Jose. Er beschäftigt sich insbesondere mit der Frage, wie KI-Modelle effizient trainiert werden können und welche Daten es dafür braucht. Im Interview mit heise online spricht er über das Phänomen "Peak Data", das viele KI-Firmen beschäftigt.

heise online: Das Internet ist riesig und jeden Tag werden scheinbar unzählig viele Informationen hinzugefügt. Dennoch warnen Sie vor einem Informationsfördermaximum, d.h. vor dem Tag, an dem es nichts mehr gibt, womit KI-Modelle trainiert werden könnten. Sie vergleichen dieses "Peak Data" mit "Peak Oil", den Moment, wenn es kein Öl oder Gas mehr zu fördern gibt. Ist Ihre Analyse nicht etwas überzogen?

Pablo Villalobos: Nun, die Analogie zum Ölfördermaximum mag dramatisch klingen, ebenso wie die Warnung, dass uns die Daten ausgehen könnten. Dennoch kommt das Internet ans Fördermaximum. Letztendlich denke ich, dass wir an einem bestimmten Punkt mit einem Übergang rechnen müssen, wenn KI-Modelle also das meiste gelernt haben, was das Internet ihnen beibringen kann. Dann müssen wir neue Wissensquellen finden, um die Modelle weiter zu verbessern.

Wie weit sind wir von diesem Moment entfernt? Lässt sich diese Entwicklung überhaupt verfolgen?

Nach unseren aktuellen Schätzungen sind wir noch ein paar Jahre von diesem Moment entfernt, es sind wohl zwischen zwei und sechs. Andere Forscher haben bereits Prognosen über die Datenmenge im Internet aufgestellt und kommen dabei auf etwas höhere oder auch niedrigere Zeiträume. Aber solange sich die Datenmenge wie bisher pro Jahr ungefähr verdreifacht, wird es zwangsläufig dazu kommen. Und ich bin sicher, dass die KI-Unternehmen selbst genaue Schätzungen darüber haben, auf wie viele Daten sie zugreifen können und wann diese für sie nicht mehr ausreichen werden.

OpenAI, Anthropic und andere führende KI-Unternehmen haben erklärt, dass sie auch synthetische Daten für LLM-Trainingszwecke verwenden könnten, d. h. sie einfach selbst wiederum von LLMs generieren lassen. Wie hat man sich das praktisch vorzustellen?

Synthetische Daten sind im Grunde eine sehr einfache Idee, mit der Menschen beispielsweise in der Mathematik viel neues Wissen generieren. Wir denken intensiv über ein Problem nach, probieren verschiedene Ansätze aus, verwerfen jene, die nicht funktionieren, und behalten die, die funktionieren – bis wir gelernt haben, das Problem zu lösen. Dann trainieren wir mit dem Rohoutput eines anderen Modellproblems und machen mit dem nächsten weiter.

Es gibt viele Möglichkeiten, das zu tun. Grundsätzlich würde es wahrscheinlich viele Instanzen eines Modells wie GPT-4 umfassen, die von anderen Instanzen verfasste Texte überprüfen und dann kuratieren. Zum Beispiel: Mehrere dieser Instanzen lesen ein Buch ein und erstellen eine Rezension, in der sie die Stärken und Schwächen des Werkes beschreiben. Dann bewerten andere Instanzen diese Rezensionen und wählen die besten aus, während noch mehr Instanzen wiederum Feedback zu diesen Rezensionen geben. Schließlich erstellen die Modelle eine gründlich überarbeitete Liste mit Verbesserungen und erstellen eine neue, verbesserte Version des Buches.

Ein bisschen stelle ich mir das vor wie bei der berühmten Schlange Ouroboros aus der Mystik, die sich selbst auffrisst. Was ist mit dem Problem des sogenannten Modellkollapses, bei dem die Modelle nur noch Unsinn schreiben, weil sie quasi auf sich selbst trainiert wurden?

Der oben geschilderte Ansatz ist komplizierter, als wenn ein Modell einfach alles niederschreibt, was ihm in den Sinn kommt, und das nächste Modell dann darauf trainiert wird. Das ist der Preis, den man zahlen muss, wenn man die Degeneration vermeiden will, die Sie erwähnen.

Und es stimmt: Ein Modell, das direkt auf seinen eigenen Output trainiert wird, ist wie ein Schüler, der seine eigene Prüfung selbst benotet, nachdem er sie gerade abgelegt hat: Im besten Fall lernt er nichts, und im schlimmsten Fall verstärkt er die Fehler, die er gemacht hat. Beim obigen Ansatz erinnert das Vorgehen aber eher an einen Experten, der seine eigenen und die Argumente anderer Experten kritisiert und damit sein Fachgebiet voranbringt.

Wann kommt es zum Modellkollaps und wann nicht?

Es gibt einige Studien dazu. Sie zeigen, dass das wiederholte Training von Modellen anhand der Rohdaten anderer Modelle letztendlich zu einer Degeneration führt.

Aber es gibt auch das Gegenbeispiel: AlphaZero etwa, das durch das Spielen gegen sich selbst ein Experte im Go-Spiel wurde. Und es gibt das Beispiel von AlphaGeometry, das lernt, Theoreme in der Geometrie zu beweisen, indem es aus seinen Fehlern und Erfolgen der Vergangenheit lernt.

Wenn Sie mich fragen: In der Praxis bezweifle ich, dass der Modellkollaps ein wirklich großes Hindernis sein wird. Es geht nur darum, die richtige Kombination aus Versuch und Irrtum mit einer integrierten Selbstkorrektur zu finden. Aber auch das wird ziemlich viel Arbeit.