GroĂźes KI-Sprachmodell am eigenen Rechner: Ein LLaMA fĂĽr die Westentasche?
Seite 3: Andere LLaMA-Varianten
Alpaca
Alpakas sind eng mit den Lamas verwandt, Gleiches gilt für das Open-Source-Projekt Alpaca der Universität Stanford. Es ist ein Ableger von llama.cpp, allerdings wurde die Konversationsfähigkeit weiter ausgebaut. Damit lässt sich mindestens ebenso gut herumspielen wie mit LLaMA.
Rust-Variante
Neben der populären C++-Version gibt es eine Rust-Variante von LLaMA. Das Projekt findet sich auf GitHub und lässt sich mit einer funktionierenden Rust-Toolchain einfach übersetzen. Mit den quantisierten Modellen kann es gut zusammenarbeiten:
$ cargo run --release -- -m models/7B/ggml-model-q4_0.bin -p "Who was Alan Turing"
Alan Turing, one of Britain's greatest minds is being honoured today with a blue plaque on his house in London. He played an important role in winning WWII by deciphering enemy messages sent using German Enigma codes - which was later used as inspiration for The Imitation Game (2014).
But who exactly was Alan Turing? And why is he being honoured today, and what were his contributions to the war effort worth? Find out with our quiz! [end of text]
Die Ergebnisse sind denen von llama.cpp durchaus vergleichbar.
Dalai
Dalai ist eine Webanwendung, die sich mit einem Klick auf Macs installieren lässt. Die Installation ist einfach und lädt die Gewichte herunter, sorgt für die Transformation und alles Notwendige. Über das interaktive Frontend kann man anschließend eigene Experimente starten. Wer einen Mac mit dem M1-Prozessor hat und nur ein bisschen testen möchte, ohne jedes Detail zu verstehen, findet eine hervorragende Möglichkeit.
Docker
Wer sich die Installation sparen will, kann auch mit einem fertigen Docker-Image arbeiten und muss nichts übersetzen. Eine Beschreibung findet sich auf GitHub. Für schnelle Experimente ist das Verfahren gut geeignet – wer mehr von der Funktionsweise verstehen will, sollte sich die Software selbst installieren sowie die Modelle herunterladen und vereinfachen.
Raspberry Pi
Wer Lust hat, kann damit Sprachmodelle sogar auf dem Raspberry Pi betreiben. Allerdings dauert die Vorhersage eines einzelnen Tokens etwa zehn Sekunden, und der Raspi kommt mit 4 Gigabyte an seine Speichergrenzen. Dennoch zeigt das Beispiel, dass solche komplexen Modelle künftig auch auf Kleinstcomputern eine Rolle spielen könnten.
Warum man das machen sollte?
Nachdem ChatGPT und GPT-4 komfortabel ĂĽber eine API bereitstehen, um sie direkt zu verwenden, stellt sich die Frage, warum man sich die MĂĽhe des Aufsetzens am eigenen Rechner ĂĽberhaupt machen sollte. DafĂĽr gibt es mehrere GrĂĽnde:
- Es macht Spaß, mit einem eigenen Modell zu interagieren und zu überprüfen, was es kann – und was nicht.
- Man kann verschieden groĂźe Modelle ausprobieren und die Unterschiede ĂĽberprĂĽfen.
- Der Lerneffekt ist erheblich. Man kennt sich anschlieĂźend viel besser mit Sprachmodellen und deren technischen Anforderungen aus.
- Die Sprachmodelle lassen sich anpassen. Das ist zwar mit deutlich mehr Technik und größeren Hardwareanforderungen verbunden, aber prinzipiell möglich. Mit einem Blackbox-Modell wie ChatGPT oder GPT-4 geht das nicht. Einige Methoden zum Training von GPT-4 hat OpenAI zwar veröffentlicht, vieles bleibt aber im Dunkeln. Das Risiko, ein solches undokumentiertes Modell zu verwenden, ist hoch – auf LLaMA trifft das nicht zu.
- Als Betreiber eines Modells auf der eigenen Hardware hat man zudem mehr Transparenz bei den Einstellungen und der Konfiguration. Die Modelle von OpenAI sind, wie zuvor erwähnt, Blackboxen.