c't 11/2022
S. 136
Wissen
KI: Transformer
Bild: Albert Hulm

Aufmerksamkeit reicht

So funktionieren Sprach-KIs vom Typ „Transformer“

Nicht jede KI wird schlauer, wenn man sie auf gigantische Ausmaße aufbläst – der Textgenerator GPT-3 hingegen schon. Wir zeigen, wie die dahinter liegende Transformer-Technik funktioniert.

Von Pina Merkert

Transformieren meint ganz allgemein das Umwandeln von einem in etwas anderes. Im Kontext von KI bedeutet „Transformer“ eine ganz bestimmte Architektur für neuronale Netze, die in den letzten Jahren ganz groß herauskam, sowohl bezogen auf den Umfang als auch auf die Verbreitung der Sprachmodelle. Diese neuronalen Netze transformieren Sätze in Bedeutungssequenzen. Aus denen können Netze mit der gleichen Struktur auch wieder Sätze berechnen.

Die 2017 von Google-Forschern vorgestellten Transformer lernen in ihrer Trainingsphase nicht nur, wie sie die Daten verarbeiten, sondern auch, worauf sie ihre Aufmerksamkeit richten müssen. Aufmerksamkeit und Datenverarbeitung stecken zusammen in Blöcken, die sich leicht zu tiefen Netzen stapeln lassen. Deswegen gelingt es, Transformer massiv zu skalieren, beispielsweise zu riesigen Sprachmodellen wie GPT-3 von OpenAI mit 175 Milliarden Parametern. Den Konkurrenten BERT mit 110 Millionen Parametern kann man noch daheim auf einer dicken Grafikkarte trainieren, für GPT-3 braucht man ein Rechenzentrum und gute Nerven, wenn die Stromrechnung kommt.

Kommentieren