KI-Training mit synthetischen Daten: "Das Internet kommt ans Fördermaximum"

Große Sprachmodelle werden immer größer – und benötigen mehr und mehr Trainingsdaten. Was passiert, wenn das gesamte Menschheitswissen abgegrast wurde?

166

Roboter umrundet von Sprechblasen: Ohne Input kein Output.

(Bild: Erstellt mit Midjourney durch heise online)

12.07.2024, 08:46 Uhr

Lesezeit: 8 Min.

Von

Ben Schwan

Pablo Villalobos ist Staff Researcher beim KI-Forschungsinstitut Epoch AI im kalifornischen San Jose. Er beschäftigt sich insbesondere mit der Frage, wie KI-Modelle effizient trainiert werden können und welche Daten es dafür braucht. Im Interview mit heise online spricht er über das Phänomen "Peak Data", das viele KI-Firmen beschäftigt.

heise online: Das Internet ist riesig und jeden Tag werden scheinbar unzählig viele Informationen hinzugefügt. Dennoch warnen Sie vor einem Informationsfördermaximum, d.h. vor dem Tag, an dem es nichts mehr gibt, womit KI-Modelle trainiert werden könnten. Sie vergleichen dieses "Peak Data" mit "Peak Oil", den Moment, wenn es kein Öl oder Gas mehr zu fördern gibt. Ist Ihre Analyse nicht etwas überzogen?

Pablo Villalobos: Nun, die Analogie zum Ölfördermaximum mag dramatisch klingen, ebenso wie die Warnung, dass uns die Daten ausgehen könnten. Dennoch kommt das Internet ans Fördermaximum. Letztendlich denke ich, dass wir an einem bestimmten Punkt mit einem Übergang rechnen müssen, wenn KI-Modelle also das meiste gelernt haben, was das Internet ihnen beibringen kann. Dann müssen wir neue Wissensquellen finden, um die Modelle weiter zu verbessern.

Wie weit sind wir von diesem Moment entfernt? Lässt sich diese Entwicklung überhaupt verfolgen?

Nach unseren aktuellen Schätzungen sind wir noch ein paar Jahre von diesem Moment entfernt, es sind wohl zwischen zwei und sechs. Andere Forscher haben bereits Prognosen über die Datenmenge im Internet aufgestellt und kommen dabei auf etwas höhere oder auch niedrigere Zeiträume. Aber solange sich die Datenmenge wie bisher pro Jahr ungefähr verdreifacht, wird es zwangsläufig dazu kommen. Und ich bin sicher, dass die KI-Unternehmen selbst genaue Schätzungen darüber haben, auf wie viele Daten sie zugreifen können und wann diese für sie nicht mehr ausreichen werden.

OpenAI, Anthropic und andere führende KI-Unternehmen haben erklärt, dass sie auch synthetische Daten für LLM-Trainingszwecke verwenden könnten, d. h. sie einfach selbst wiederum von LLMs generieren lassen. Wie hat man sich das praktisch vorzustellen?

Synthetische Daten sind im Grunde eine sehr einfache Idee, mit der Menschen beispielsweise in der Mathematik viel neues Wissen generieren. Wir denken intensiv über ein Problem nach, probieren verschiedene Ansätze aus, verwerfen jene, die nicht funktionieren, und behalten die, die funktionieren – bis wir gelernt haben, das Problem zu lösen. Dann trainieren wir mit dem Rohoutput eines anderen Modellproblems und machen mit dem nächsten weiter.

Es gibt viele Möglichkeiten, das zu tun. Grundsätzlich würde es wahrscheinlich viele Instanzen eines Modells wie GPT-4 umfassen, die von anderen Instanzen verfasste Texte überprüfen und dann kuratieren. Zum Beispiel: Mehrere dieser Instanzen lesen ein Buch ein und erstellen eine Rezension, in der sie die Stärken und Schwächen des Werkes beschreiben. Dann bewerten andere Instanzen diese Rezensionen und wählen die besten aus, während noch mehr Instanzen wiederum Feedback zu diesen Rezensionen geben. Schließlich erstellen die Modelle eine gründlich überarbeitete Liste mit Verbesserungen und erstellen eine neue, verbesserte Version des Buches.

Ein bisschen stelle ich mir das vor wie bei der berühmten Schlange Ouroboros aus der Mystik, die sich selbst auffrisst. Was ist mit dem Problem des sogenannten Modellkollapses, bei dem die Modelle nur noch Unsinn schreiben, weil sie quasi auf sich selbst trainiert wurden?

Der oben geschilderte Ansatz ist komplizierter, als wenn ein Modell einfach alles niederschreibt, was ihm in den Sinn kommt, und das nächste Modell dann darauf trainiert wird. Das ist der Preis, den man zahlen muss, wenn man die Degeneration vermeiden will, die Sie erwähnen.

Und es stimmt: Ein Modell, das direkt auf seinen eigenen Output trainiert wird, ist wie ein Schüler, der seine eigene Prüfung selbst benotet, nachdem er sie gerade abgelegt hat: Im besten Fall lernt er nichts, und im schlimmsten Fall verstärkt er die Fehler, die er gemacht hat. Beim obigen Ansatz erinnert das Vorgehen aber eher an einen Experten, der seine eigenen und die Argumente anderer Experten kritisiert und damit sein Fachgebiet voranbringt.

Wann kommt es zum Modellkollaps und wann nicht?

Es gibt einige Studien dazu. Sie zeigen, dass das wiederholte Training von Modellen anhand der Rohdaten anderer Modelle letztendlich zu einer Degeneration führt.

Aber es gibt auch das Gegenbeispiel: AlphaZero etwa, das durch das Spielen gegen sich selbst ein Experte im Go-Spiel wurde. Und es gibt das Beispiel von AlphaGeometry, das lernt, Theoreme in der Geometrie zu beweisen, indem es aus seinen Fehlern und Erfolgen der Vergangenheit lernt.

Wenn Sie mich fragen: In der Praxis bezweifle ich, dass der Modellkollaps ein wirklich großes Hindernis sein wird. Es geht nur darum, die richtige Kombination aus Versuch und Irrtum mit einer integrierten Selbstkorrektur zu finden. Aber auch das wird ziemlich viel Arbeit.

"Der Hype wird sich nochmals verzehnfachen"

Tatsächlich dürften auch die Modelle, die aus Internet-Inhalten trainiert werden, zunehmend auf KI-Inhalte stoßen. Die sich nur schwer erkennen lassen.

Das Internet enthält Hunderte von Billionen Wörtern. OpenAI-Chef Sam Altman sagte, dass OpenAI derzeit 100 Milliarden Wörter pro Tag oder etwa 36 Billionen Wörter pro Jahr generiert. Selbst wenn all das im Internet landen würde, wäre es derzeit nur ein kleiner Prozentsatz der Gesamtmenge an Text. Vielleicht wird es in ein paar Jahren aber ein spürbarerer Prozentsatz werden.

Hinzu kommt, dass die aus dem Internet gesammelten Daten vor der Verwendung für das Training noch gereinigt werden. Wir können zwar nicht zwischen KI-generierten Daten und qualitativ hochwertigen oder minderwertigen Daten unterscheiden, aber wir können zwischen Daten unterscheiden, die sich wiederholen. Wenn also KI-generierte Daten von guter Qualität sind, könnten sie für das Training verwendet werden. Wenn sie jedoch viel Spam enthalten, werden sie herausgefiltert und aus dem Trainingsdatensatz entfernt.

Es gibt die Zeit, nach der Menschen mit dem Testen von Atomwaffen begonnen hatten – und es gab die Zeit davor. Das lässt sich in der Atmosphäre messen. Kann man das mit der Zeit vor und nach dem Start der großen Sprachmodelle vergleichen?

Vielleicht. Wenn es so weitergeht, wird man in einigen Jahren das Alter von LLMs eindeutig anhand der Unterschiede im Stromverbrauch erkennen können.

Einige KI-Forscher sagen, dass die Zeit der immer größer werdenden Modelle vorbei ist. Wir sollten lieber kleinere und effizientere Modelle entwickeln. Ist das eine Lösungsmöglichkeit?

Kleine und effiziente Modelle können definitiv einen großen Mehrwert bieten, insbesondere für einfachere Aufgaben. Wenn es jedoch um die allgemeine Leistungsfähigkeit geht, sind große Modelle derzeit unschlagbar. Und das menschliche Gehirn ist immer noch größer als die größten Modelle, die wir haben, wenn man die Parameter von KI-Modellen und die Synapsen des Gehirns als gleichwertig betrachtet. Ich gehe also davon aus, dass die meisten Anwendungen künftig kleinere Modelle verwenden werden, aber für komplexere kognitive Anforderungen werden immer noch immer größere Modelle benötigt.

Sie sprechen vom Traum einer Allgemeinen Künstlichen Intelligenz (AGI) oder gar einer Superintelligenz.

Der hängt immer noch von der Skalierung ab, ja. Es könnte jedoch auch synthetische Daten benötigen. Oder KI-Modelle, die direkt aus der realen Arbeit lernen, z. B. durch eigene Experimente. Es könnte auch andere neue Lernformen erfordern, um dorthin zu gelangen.

Was den praktischen Nutzen aktueller LLMs und Chatbots angeht, sind einige Beobachter inzwischen skeptischer als noch vor wenigen Monaten. Wie lange wird der Hype noch anhalten?

Jede weitere Größenordnung der Skalierung wird da zu einem neuen Experiment. Die Entwicklung von Modellen der Größenordnung eines OpenAI-GPT kostete schon Hunderte Millionen, als LLMs noch praktisch nutzlos und der breiten Öffentlichkeit unbekannt waren. Ein paar Jahre später erwirtschaften sie Milliardenumsätze für die Firma.

Jetzt werden Milliarden für die Entwicklung der nächsten Generation ausgegeben. In ein paar Jahren werden wir sehen, ob diese neue Generation dann Umsätze in zweistelliger Milliardenhöhe erwirtschaften kann. Wenn nicht, wird der Hype wahrscheinlich stark abkühlen. Falls es klappt, dann werden wir ein weiteres Experiment sehen, dieses Mal im Maßstab von 100 Milliarden Dollar, und der Hype wird sich nochmals verzehnfachen. (bsc)