LLaMA-Nachbau: RedPajama – erste dezentrale Open-Source-KI mit offenem Datensatz

Das RedPajama-Projekt hat den Trainingsdatensatz von LLaMA mit über 1,2 Billionen Token reproduziert und stellt ihn Open Source zur Verfügung.

In Pocket speichern vorlesen Druckansicht 15 Kommentare lesen

Das Maskottchen geht auf einen Kinderreim von Anna Dewdney zurück: "LLama LLama, Red Pajama"

(Bild: Together)

Update
Lesezeit: 9 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

(This article also exists in English.)

Der LLaMA-Trainingsdatensatz mit über 1,2 Billionen Token ist reproduziert und Open Source: Das RedPajama-Projekt hat sich zum Ziel gesetzt, eine Reihe großer Foundation Models quelloffen zu bauen, um nach eigenen Angaben geschlossenen Black-Box-Modellen wie GPT-4 etwas entgegenzusetzen. Die Reproduktion des LLaMA-Datensatzes hat das Projekt nun abgeschlossen und stellt ihn der Öffentlichkeit zur freien Verfügung.

Hinter RedPajama steht ein Zusammenschluss hochkarätiger Forscherinnen und Forscher kanadischer Universitäten (Mila Québec, Uni Montréal), mehrerer Forschungsinstitute der Stanford University (Stanford CRFM – Center for Research on Foundation Models; Hazy Research im Stanford AI Lab), TogetherCompute, LAION, EleutherAI und weiterer Partner, die für das Projekt ihr Fachwissen, ihre Forschungs- und Hardwareressourcen zusammentragen. Drei Ziele hat RedPajama sich laut Blogpost gesteckt:

  1. einen hochwertigen, breit angelegten Datensatz für das Pre-Training zu erstellen,
  2. große Basismodelle (Foundation Models) auf dem Datensatz zu trainieren,
  3. Daten für das Instruction Tuning bereitzustellen. Mit den daraus hervorgehenden Modellen sollen die vortrainierten Foundation Models aus der ersten Stufe des Trainings sicher und einsatzfähig werden.

Mit der Veröffentlichung des Basisdatensatzes hat das Projekt den ersten Schritt inzwischen vollzogen.

Die mächtigsten Foundation Models liegen zurzeit geschlossen hinter den APIs kommerzieller Anbieter wie OpenAI, heißt es in einem Blogpost des dezentralen KI-Cloud-Anbieters Together im Namen der Projektbeteiligten. Die unabhängige Erforschung solcher Modelle, eine Personalisierung (unter Berücksichtigung abweichender Nutzerbedürfnisse) und ihr Einsatz für sensible sowie vertrauliche Daten sind durch die Zugangsbeschränkung ausgeschlossen.

Es gibt bereits Ansätze, große KI-Modelle offen nachzubauen, die bislang jedoch noch nicht die gleiche Qualität und Performance wie die kommerziellen großen Sprachmodelle bieten. So legte die KI-Graswurzel EleutherAI die Pythia-Serie vor, auf der etwa Dolly 2.0 von Databricks beruht, und das OpenAssistant-Projekt von LAION hat unter der Leitung von Andreas Köpf und Yannic Kilcher ein freies Modell samt hochwertigem Open-Source-Datensatz veröffentlicht. Dieser war als Crowdsourcing Freiwilliger entstanden (menschengemacht) und durchlief eingehende Review- und Moderationsprozesse. Als Ausgangsbasis dienten hier verschiedene Modelle wie Pythia-12B, aber auch LLaMA – die LLaMA-Modellstufen lassen sich wegen ungeklärter Lizenzfragen nicht veröffentlichen.

Dashboard von Meerkat zum Erkunden des GitHub-Subsets im Corpus. Der Screenshot zeigt eine Vorschau.

(Bild: Hazy Research (Meerkat Repository))

Ableger des teils für die Forschung unter Auflagen zugänglichen, teils als BitTorrent geleakten Modells LLaMA haben den Haken, dass sie sich in einer rechtlichen Grauzone bewegen, da Meta AI LLaMA nicht unter Open-Source-Lizenz freigegeben hat. Lediglich ausgewählte Forschungsprojekte können auf Antrag legalen Zugang erhalten. Die daraus hervorgehenden Modelle sind weder Open Source noch für kommerziellen Einsatz geeignet. Im Internet kursiert seither eine Reihe semi-offener Modelle: neben LLaMA etwa Alpaca (Stanford University), Vicuna, LLaVA und Koala (Berkeley University). Zudem haben zahlreiche Ableger sich der OpenAI-API bedient, um synthetische Trainingsdatensätze zu erzeugen, was einen Verstoß gegen die Terms of Use des US-Anbieters darstellt.

OpenAI untersagt die Nutzung seiner Produkte zum Erstellen von Konkurrenzprodukten und behält sich vor, gegen solche Projekte rechtlich vorzugehen. Dass das kein Papiertiger ist und künftig vor Gericht ausgefochten werden dürfte, zeichnet sich ab: So hat Microsoft damit begonnen, Kunden zu bestrafen, die potenzielle Konkurrenten für GPT-4 entwickeln, und droht damit, deren Zugang zu den Bing-Suchdaten zu beschränken. Microsoft ist größter Geldgeber und Hauptinvestor bei OpenAI, mit exklusiven Nutzungsrechten an deren Modellen.

RedPajama geht als Projekt mit dem Ziel an den Start, vollständig offene sowie reproduzierbare Foundation Models zu erstellen, die sich von den Fähigkeiten her mit der Weltklasse messen können. Neben den genannten kanadischen und US-amerikanischen Forschungseinrichtungen (Mila Québec, Montréal, Stanford Center for Research on Foundation Models) sowie Open-Source-KI-Vereinen (LAION, EleuterAI) ist Ontocord.AI als Partner dabei, ein Spezialist für das Erstellen von Trainingsdatensätzen für große Foundation Models mit mehreren Milliarden Parametern.

Ausgangspunkt für das Projekt war offenbar das Forschungspaper zu LLaMA, da deren Datensatz als besonders umfassend, hochwertig und gut gefiltert gilt. Zudem lässt sich ein Modell in der Größe von 7 Milliarden Parametern (wie LLaMA) auf den meisten GPUs betreiben, was für die Open-Source-Community mit beschränkten Ressourcen von Belang ist. Da bereits bestehende Ableger wie Alpaca, Vicuna und Koala nur für Forschungszwecke bereitstehen, ist das RedPajama-Ziel eine vollständig reproduzierbarer Open-Source-Nachbau von LLaMA, der auch für kommerzielle Anwendungen offensteht. Daneben soll auch die Forschung auf diese Weise eine transparentere Pipeline für große KI-Modelle erhalten.

Der Basisdatensatz liegt in zwei Größen komprimiert in einem Hugging-Face-Repository. Er besteht aus sieben unterschiedlichen Datenquellen:

  • Common Crawl (gemäß Common Crawl Foundation Terms of Use)
  • Colossal Clean Crawled Corpus: C4 (gemäß C4-Lizenz)
  • GitHub (nur MIT, BSD, Apache)
  • arXiv-Paper (gemäß Terms of Use)
  • Bücher (gemäß the_pile_books3 license und pg19license)
  • Wikipedia (gemäß Wikipedia-Lizenz)
  • StackExchange (gemäß der Lizenz im Internet-Archiv)

Token von RedPajama und LLaMA im Vergleich: Der Trainingsdatensatz von RedPajama deckt sich in etwa mit dem von Meta AI im LLaMA-Paper berichteten Umfang. Die für LLaMA angegebenen Werte beruhen auf Schätzung nach den Angaben in dem bei arXiv.org publizierten Forschungsbeitrag.

(Bild: TogetherCompute)

Den Löwenanteil macht der Common Crawl aus frei zugänglichen Internetdaten aus, mit 878 Milliarden Token. C4 (Colossal Clean Crawled Corpus) ist ein von Google erzeugter, stark gefilterter Standarddatensatz mit 175 Milliarden Token. Die Washington Post hat gemeinsam mit dem Allen Institute in einer akribischen Untersuchung die 15 Millionen Webseiten, die in C4 einfließen, unter die Lupe genommen und darin etwa 200 Millionen Mal das Copyright-Symbol gefunden, Piratenseiten (die urheberrechtlich geschütztes Material frei verfügbar machen) sollen in dem Datensatz enthalten sein und insbesondere US-amerikanische Nachrichtenseiten werden für C4 breit abgegrast. Zum Colossal Clean Crawled Corpus liegt auch eine von Google unabhängige wissenschaftliche Untersuchung vor.

Von GitHub stammen 59 Milliarden Token (die Daten sind nach Lizenzen und Qualität gefiltert). Wissenschaftliche Fachartikel von arXiv.org (28 Milliarden Token) dienen zum Reduzieren von Wiederholungen. An Büchern sei ein Corpus offen zugänglicher Bücher eingeflossen (den das Team de-duplizierte, um Verzerrungen zu vermeiden, 26 Milliarden Token). Wikipedia steuerte 24 Milliarden Token bei (ein "Subset" von Wikipediaseiten sei ins Training eingegangen), und StackExchange lieferte 20 Milliarden Token mit einem Unterdatensatz dort beliebter Webseiten. Doppelungen wurden entfernt.

Mindestens zwei der verwendeten Datenquellen stehen unter dem Vorbehalt, dass sie Copyrights verletzen könnten, wie eine Copyright-Anwältin auf Twitter zu bedenken gab: Common Crawl und die Büchersammlung "The Pile", den Angaben der Washington Post zufolge dürfte jedoch auch C4 aus urheberrechtlicher Sicht problematischer sein als bislang angenommen. Anbieter wie OpenAI entziehen sich einer Prüfung, in dem sie neuerdings nicht mehr angeben, welche Trainingsdaten sie zum Erstellen von GPT-4 verwendet haben. Genauere Informationen zum Aufbereiten der Daten und zu den Qualitätsfiltern lässt sich dem GitHub-Repository des Projekts entnehmen. Die Rezepte zur Aufbereitung der RedPajama-Daten lassen sich nachkochen. Das ist bedeutsam, da das Sammeln und Bereinigen von Daten bis zu 90 Prozent des Aufwands bei einem Machine-Learning-Projekt ausmachen, das Daten aus der echten Welt (keine synthetisch destillierten Daten) verwendet.

Der nächste Schritt des Projekts ist laut Roadmap das Training eines starken Basismodells. Deshalb sei RedPajama Teil des US-amerikanischen INCITE-Programms (mit Zugang zu Supercomputern der Argonne Leadership Computing Facility des U.S. Department of Energy) und erhalte Unterstützung von der Oak Ridge Leadership Computing Facility (kurz OLCF), ebenfalls getragen vom U.S. Department of Energy (DOE). Es ist absehbar, dass auf die Veröffentlichung des Trainingsdatensatzes und künftig der offenen Modelle durch RedPajama eine neue Welle von LLM-Ablegern auf der Bildfläche erscheinen wird, diesmal Open Source statt Grauzone. RedPajama ist der Anfang eines großen Projekts quelloffener, dezentraler KI. Die ersten Modelle sollen bereits "in den kommenden Wochen" erscheinen.

Die RedPajama-Ankündigung findet sich im Blog von Together. Der Datensatz lässt sich bei Hugging Face herunterladen. Die Daten zum Reproduzieren der Ergebnisse stehen unter Apache-2.0-Lizenz auf GitHub bereit. Wer sich aktiv an dem Projekt beteiligen möchte, kann dem Discord-Kanal der Gruppe beitreten.

Update

Beitrag der Washington Post zum Datensatz C4 ergänzt.

(sih)