Sprachmodelle verbessern: So geht's mit OpenLlaMA und der Transformer-Bibliothek

Durch Feintuning lernen große Sprachmodelle neue Fähigkeiten und eignen sich Fachwissen an. Mit der Transformer-Bibliothek gelingt dieses Nachtrainieren leicht.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 19 Min.
Von
  • Martin Thissen
Inhaltsverzeichnis

Große Sprachmodelle wie GPT-4, Bard oder LLaMA haben innerhalb kürzester Zeit den Büroalltag vieler Menschen verändert. Eine perfekt formulierte E-Mail schreiben, Dokumente zusammenfassen oder den Bubble-Sort-Algorithmus in Python implementieren – dank großer Sprachmodelle (Large Language Models, LLMs) alles im Handumdrehen gemacht. Dennoch liefern sie nicht zwangsläufig die perfekte Antwort auf alle in Form von Prompts gestellten Fragen. Dies liegt häufig daran, dass im Prompt beschriebene Anweisungen nicht ausreichend in den Trainingsdaten des LLM abgedeckt sind, sodass das LLM unsicher über die richtige Antwort ist. LLMs neigen dann manchmal zum Halluzinieren und liefern überzeugend klingende, aber falsche Antworten.

Das Feintuning eines großen Sprachmodells wirkt dem entgegen. Es eignet sich insbesondere, wenn das LLM ausschließlich innerhalb einer bestimmten Domäne verwendet wird. Durch Feintuning können große Sprachmodelle zum Beispiel wesentlich fundierteres Wissen in Spezialgebieten erlangen, etwa in Medizin oder einer Teildisziplin davon. Identisch dazu ist das Vorgehen, um aus einem allgemeinen Sprachmodell einen Chatbot zu bauen. Deshalb wird in diesem Artikel zu Demonstrationszwecken ein Basismodell mit einem öffentlich verfügbaren Datensatz so angepasst, dass es sich in einen persönlichen Assistenten verwandelt.

Mehr zum Thema KI-Sprachmodelle:
Martin Thissen

Martin Thissen ist Content Creator auf YouTube und Medium sowie wissenschaftlicher Mitarbeiter an der Hochschule Darmstadt. Als Content Creator erklärt er, wie KI-Modelle funktionieren und wie sie verwendet werden können.

Ein bereits als persönlicher Assistent agierendes LLM kann sich durch erneutes Feintuning mit Datensätzen aus einer speziellen Wissensdomäne oder aus dem eigenen Unternehmen ein größeres Wissensspektrum aneignen. Das zeigt der Artikel am Beispiel allgemeiner medizinischer Fragen. Ein Unternehmen könnte aber auch größere Datensätze aus Fragen und Antworten im Kundensupport oder Vertrieb nutzen, um ein LLM auf bestimmte Anwendungsgebiete nachzutrainieren. Der hier in Ausschnitten wiedergegebene Code liegt in Form eines Jupyter-Notebooks auf GitHub und lässt sich mit minimalen Anpassungen für Experimente mit eigenen Daten verwenden. Voraussetzung für das Training sind CUDA-Grafikkarten mit Ampere-Architektur oder neuer. Eine für ältere Grafikkarten angepasste Version stellt ein Colab-Notebook zur Verfügung. Sie lässt sich mit einer kostenlosen T4-GPU aus der Cloud nutzen.