iX Special 2023
S. 8
Basics
Sprach-KI

Sprachmodelle verstehen und einsetzen

Große Sprachmodelle arbeiten mit Embedding-Vektoren, die den Kontext und die Beziehung von Wörtern mathematisch abbilden. Durch Feintuning und Zero-Shot-Klassifikation sind diese Modelle sehr vielseitig einsetzbar. Ein Überblick.

Von Prof. Christian Winkler

Auch wenn ChatGPT im Moment in aller Munde ist, steckt dahinter auch „nur“ ein Sprachmodell. Seit der Erfindung dieser großen Sprachmodelle (Large Language Models, LLM) im Jahr 2017 durch Google hat sich daraus eine ganz neue Disziplin mit einem eigenen Ökosystem entwickelt. Viele früher sehr schwierige Fragestellungen können heutige Systeme bereits elegant lösen. Dafür gibt es mehrere Gründe: Der von Google erfundene Attention-Mechanismus hat sich als sehr leistungsfähig herausgestellt. Mithilfe von Transfer Learning lassen sich Sprachmodelle auf ganz spezifische Probleme anpassen. Das Gros des Rechenaufwands steckt dabei im Training der generischen allgemeinen Modelle, der Anpassungsaufwand ist eher gering. Das hat ein ganzes Ökosystem an Möglichkeiten generiert, weil viele Anpassungen der Modelle durch die Community implementiert wurden.

Die Grundidee der Sprachmodelle besteht darin, fehlende Wörter vorherzusagen. Das Training dieser Modelle benötigt daher allein Fließtexte, die in nahezu beliebiger Menge zur Verfügung stehen. Nutzerinnen und Nutzer müssen die Texte nicht mal separat herunterladen, weil Projekte wie Common Crawl das bereits erledigt haben. Der Rechenaufwand zum Training großer Sprachmodelle ist immens. Allerdings lassen sich diese Aufgaben hervorragend parallelisieren. Leistungsfähigere Grafikkarten oder Spezialhardware wie TPUs (Tensor Processing Units) können immer größere Modelle trainieren. Das Ökosystem der Sprachmodelle konnte nur wachsen, weil große Firmen wie Google, Meta oder Microsoft die Basismodelle vortrainiert und offen zur Verfügung gestellt haben. Deswegen lohnt sich ein Blick auf diese Modelle und ihre speziellen Eigenschaften. Unter ix.de/zq3t findet sich dazu ein begleitendes Jupyter-Notebook.

Kommentieren