Sprachmodelle verbessern: So geht's mit OpenLlaMA und der Transformer-Bibliothek

Durch Feintuning lernen große Sprachmodelle neue Fähigkeiten und eignen sich Fachwissen an. Mit der Transformer-Bibliothek gelingt dieses Nachtrainieren leicht.

Artikel verschenken

20.09.2023, 12:00 Uhr

Lesezeit: 19 Min.

iX Magazin

Von

Martin Thissen

Sprachmodelle verbessern: So geht's mit OpenLlaMA und der Transformer-Bibliothek
Basismodelle als Tokenvorhersager
Trainingsdaten vorbereiten und Feintuning
Anwendung und KI weiter anpassen
Ausblick

Artikel in iX 10/2023 lesen

Große Sprachmodelle wie GPT-4, Bard oder LLaMA haben innerhalb kürzester Zeit den Büroalltag vieler Menschen verändert. Eine perfekt formulierte E-Mail schreiben, Dokumente zusammenfassen oder den Bubble-Sort-Algorithmus in Python implementieren – dank großer Sprachmodelle (Large Language Models, LLMs) alles im Handumdrehen gemacht. Dennoch liefern sie nicht zwangsläufig die perfekte Antwort auf alle in Form von Prompts gestellten Fragen. Dies liegt häufig daran, dass im Prompt beschriebene Anweisungen nicht ausreichend in den Trainingsdaten des LLM abgedeckt sind, sodass das LLM unsicher über die richtige Antwort ist. LLMs neigen dann manchmal zum Halluzinieren und liefern überzeugend klingende, aber falsche Antworten.

Das Feintuning eines großen Sprachmodells wirkt dem entgegen. Es eignet sich insbesondere, wenn das LLM ausschließlich innerhalb einer bestimmten Domäne verwendet wird. Durch Feintuning können große Sprachmodelle zum Beispiel wesentlich fundierteres Wissen in Spezialgebieten erlangen, etwa in Medizin oder einer Teildisziplin davon. Identisch dazu ist das Vorgehen, um aus einem allgemeinen Sprachmodell einen Chatbot zu bauen. Deshalb wird in diesem Artikel zu Demonstrationszwecken ein Basismodell mit einem öffentlich verfügbaren Datensatz so angepasst, dass es sich in einen persönlichen Assistenten verwandelt.

Martin Thissen ist Content Creator auf YouTube und Medium sowie wissenschaftlicher Mitarbeiter an der Hochschule Darmstadt. Als Content Creator erklärt er, wie KI-Modelle funktionieren und wie sie verwendet werden können.

Ein bereits als persönlicher Assistent agierendes LLM kann sich durch erneutes Feintuning mit Datensätzen aus einer speziellen Wissensdomäne oder aus dem eigenen Unternehmen ein größeres Wissensspektrum aneignen. Das zeigt der Artikel am Beispiel allgemeiner medizinischer Fragen. Ein Unternehmen könnte aber auch größere Datensätze aus Fragen und Antworten im Kundensupport oder Vertrieb nutzen, um ein LLM auf bestimmte Anwendungsgebiete nachzutrainieren. Der hier in Ausschnitten wiedergegebene Code liegt in Form eines Jupyter-Notebooks auf GitHub und lässt sich mit minimalen Anpassungen für Experimente mit eigenen Daten verwenden. Voraussetzung für das Training sind CUDA-Grafikkarten mit Ampere-Architektur oder neuer. Eine für ältere Grafikkarten angepasste Version stellt ein Colab-Notebook zur Verfügung. Sie lässt sich mit einer kostenlosen T4-GPU aus der Cloud nutzen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Linux-Workstation mit 96-Kern-ARM-Prozessor im Test

MIFcom integriert in seiner Workstation eine ARM-basierte Server-CPU von Ampere. Wir testen unter Ubuntu-Linux, für welche Aufgaben der Rechner geeignet ist.

Akkubrände: Zwischen Panikmache und Fakten – ein Überblick

Medien berichten immer wieder von Bränden durch Akkus. Wir klären, wie Akkus als Gefahrenquelle zu bewerten sind und was man zur Vorbeugung tun kann.

Mobile Split-Klimaanlage im Praxistest: Midea PortaSplit sorgt für kühle Sommer

Die PortaSplit von Midea verspricht die Effizienz einer Split-Klimaanlage und lässt sich einfach in fast jedes Fenster hängen. Wir schauen, was sie leistet.

Split-Klima statt Heizung

Keyboard mit 35 Synthesizern im Test: Arturia AstroLab

Die Softwarefirma Arturia hat 35 historische Synthesizer in ein 61-Tasten-Keyboard mit über 1300 Presets integriert. Wir testen, wie authentisch sie klingen.

Tesla Model Y LR RWD im Test: Heckantrieb, hohe Reichweite und sehr sparsam

Das Tesla Model Y gibt es nun auch als "Maximale Reichweite" mit Heckantrieb. Verbrauch und Reichweite sind hervorragend, die Ladekurve eher nicht.

UpdateApple-Intelligence-"Hack": So lässt sich Apples KI-System doch in der EU nutzen

Apple hat sein neues KI-System auf iPhone und iPad stark abgeschottet, wenn man sich innerhalb der EU oder Chinas befindet. Mit etwas Aufwand geht es doch.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}