ChatGPT-Alternative: Metas LLaMA erhält Open-Source-Training

Das Open-Source-Projekt ChatLLaMA soll dabei helfen, ChatGPT-ähnliche Services auf Basis von LLaMA zu erstellen und dabei menschliches Feedback einzubeziehen.

11

(Bild: metamorworks/Shutterstock.com)

01.03.2023, 11:25 Uhr

Lesezeit: 3 Min.

Developer

Von

Rainald Menge-Sonnentag

ChatGPT-Alternative: Metas LLaMA erhält Open-Source-Training

Nebuly, die Firma hinter dem Open-Source-Projekt nebullvm zum Optimieren von KI-Systemen, hat mit ChatLLaMA ein Tool veröffentlicht, das beim Bau eigener Chatbots auf Basis von Metas LLaMA helfen soll. Dabei setzt es auf "Reinforcement Learning from Human Feedback" (RLHF), wie es unter anderem auch OpenAI für ChatGPT verwendet.

Meta hat LLaMA (Large Language Model Meta AI) Ende Februar 2023 als Konkurrenten zu Sprachmodellen wie GPT-3 von OpenAI und PaLM (Pathways Language Model) von Google ins Rennen geschickt. Laut dem KI-Team bei Meta, das ein Paper zu LLaMA veröffentlicht hat, schneide es in vielen Benchmarks deutlich besser ab.

Videos by heise

Mit Ausgaben zwischen 7 und 65 Milliarden Parametern steuert das Modell dem Trend der letzten Jahre entgegen, dass große Sprachmodelle (Large Language Models, LLM) immer größer werden. GPT-3 umfasst 175 Milliarden Parameter und PaLM mit 540 Milliarden gut das Dreifache. Meta hatte im Mai 2022 mit Open Pre-trained Transformer (OPT) eine Reihe von Sprachmodellen vorgestellt, die zwischen 125 Millionen und 175 Milliarden Parameter aufweisen.

Trainingsschicht ChatLLaMA

Die Library ChatLLaMA ist kein eigenes Modell, sondern setzt auf Metas Modell auf. Für den Einsatz ist der Zugang zu LLaMA erforderlich, den Interessierte über ein Formular bei Meta beantragen können. Die Library arbeitet mit allen Architekturen des Sprachmodells mit 7, 13, 33 und 65 Milliarden Parametern zusammen.

ChatLLaMA bietet für vortrainierte LLaMA-Modelle ein Training mit einem RLHF-Prozess. Dasselbe Prinzip, Menschen in das Training von Modellen einzubeziehen, verwenden andere Tools wie ChatGPT seit Anbeginn. OpenAI hat zusammen mit DeepMind das Paper "Deep Reinforcement Learning from Human Preferences" auf arXiv veröffentlicht. Hintergrund waren Schwächen im System von GPT-3, die der Hauptgrund dafür waren, dass OpenAI das Modell lange Zeit nicht freigegeben hatte.

Der menschliche Co-Trainer

Anfang 2022 brachte OpenAI mit InstructGPT ein erweitertes Modell heraus, bei dem es Menschen in das Training einbezog. Dasselbe Prinzip nutzt das Unternehmen in erweiterter Form für das Training von ChatGPT.

ChatLLaMA setzt wie ChatGPT auf Reinforcement Learning from Human Feedback

(Bild: OpenAI)

Bei dem RLHF-Ansatz von ChatGPT und ChatLLaMA übernehmen menschliche Trainer im Chatverlauf wechselnd die Rolle des Users und des KI-Assistenten. Für das Belohnungssystem im Reinforcement Learning bewerten die menschlichen Trainer unterschiedliche Reaktionen auf einen Prompt. Schließlich kommt ein PPO-Modell (Proximal Policy Optimization) zum Einsatz, um die Ausgaben zu optimieren.

Meta betont zwar, dass das Vorgehen von LLaMA "kompatibel mit Open Source und reproduzierbar" sei, da es sich für das Training ausschließlich auf öffentlich verfügbare Datensätze, darunter Bücher aus dem Project Gutenberg stützt. Bisher bietet Meta aber kein mit einem RLHF-Prozess trainiertes Modell an.

Nach dem Vorbild von OpenAI

Diesen Part übernimmt das Open-Source-Projekt ChatLLaMA von Nebuly, das hierbei das gleiche Prinzip wie OpenAI verwendet und sogar zur Darstellung der Arbeitsweise das OpenAI-Diagramm auf der Projektseite zeigt. Die Library soll dabei helfen, Chatbots im Stil von ChatGPT auf Basis der vortrainierten LLaMA-Modelle zu erstellen.

Wie das Modell sich tatsächlich schlägt, muss sich zeigen, wenn Meta den Zugang zu LLaMA freigibt und die Gewichte zu den Modellen bereitstellt.

Die Projektseite auf GitHub bietet die Implementierung von ChatLLaMA als Open-Source-Projekt sowie ein einfaches Codebeispiel zum Start eines eigenen Modelltrainings.

(rme)