iX Special 2019
S. 70
Softwareentwicklung
Machine Learning

KI: Durchbruch beim Textverstehen

ELMo, BERT und vierhörnige Einhörner

Christoph Henkelmann

Die Fortschritte rund um künstliche Intelligenz reihen sich in den letzten Jahren aneinander. Vor allem im Bereich Textverstehen lohnt es sich, einen Blick auf die Durchbrüche der jüngsten Zeit zu werfen.

Beeindruckende Neuerungen brachte das vergangene Jahr hauptsächlich in Sachen Textverstehen. Das Verarbeiten natürlichsprachlicher Texte (Natural Language Processing, NLP) erreichte die nächste Stufe. Gleich zu Anfang dieses Jahres setzte sich die Entwicklung mit einem Textgenerierungsmodell von OpenAI fort. Aus ethischen Gründen entschieden sich die Entwickler allerdings, den Code nicht zu veröffent­lichen. Beim Bildverstehen hingegen zeichneten sich die Fortschritte weniger durch verbesserte Fehlerraten als durch besseres Verständnis aus, wie aktuelle Systeme überhaupt funktionieren. Hier gab es spannende, erhellende und ernüchternde Resultate.

Der Trend zum Verständnis des „Wie“ war auch in anderen Bereichen zu beobachten: NVIDIAs Paper zur Generierung von Gesichtern liefert nicht nur hochwertige Ergebnisse, sondern erlaubt einen erstaunlichen Grad an Kontrolle über den Output. Das bringt etwas Licht ins Dunkel der Blackbox neuronaler Netze. 

Die meisten Veröffentlichungen folgen der anhaltenden Tendenz zu immer größeren Modellen und damit immer mehr Hardware zum Training und größerem Datenhunger. Entwickler warten sehnsüchtig auf Alternativen zur teuren Hardware von Platzhirsch NVIDIA oder den ebenfalls nicht immer günstigen Cloud-TPUs von Google. Viele Start-ups hatten Spezialhardware angekündigt, doch die ließ meist noch auf sich warten. Trotzdem sind die ersten Warnschüsse auf NVIDIA und Google in Form von Inferenzhardware zum „Abspielen“ statt zum Lernen von Modellen bereits gefallen.

Weniger Daten, mehr Verstehen

Beim Natural Language Processing (NLP) geht es darum, einem Computer beizubringen, Informationen aus natürlichem Text zu extrahieren. Dies ist nicht zu verwechseln mit Speech Recognition (Sprachverstehen). Hier besteht die Aufgabe darin, gesprochene Sprache in Text zu verwandeln. 

In Sachen Textverstehen heißen die aktuellen Themen Unsuper­vised Learning, Pre-Training und Transfer Learning, wobei die drei Begriffe miteinander verwoben sind (siehe Kasten „Dreierlei Textverstehen“).

Alle drei Paradigmen zusammen ermöglichen zum Beispiel, ein System unüberwacht auf dem Text der deutschen Wikipedia vorzutrainieren. Anschließend kann der Entwickler es per Transfer Learning für das Erkennen von Dokumenttypen anpassen. Das System übernimmt dann eine Klassifizierungsaufgabe. Bei Transfer Learning reicht eine vergleichsweise kleine Datenmenge, um das System auf konkrete Dokumenttypen einzustellen, da bestehende Fähigkeiten zum Einsatz kommen. 

Während Menschen bei Transferleistungen enorm gut sind, ist das für KI ist ein signifikantes Problem. Sie ist selten dazu in der Lage, und Transferdenken ist wenn, dann nur eingeschränkt möglich, was die neuen Ergebnisse so besonders macht. Pre-Training erlaubt es erstmals, ein Modell zu trainieren, das sich per Transfer Learning anpassen lässt.

Läuft das Pre-Training unsupervised ab, braucht es keine annotierten Daten. Das mindert die Kosten bei der Datenbeschaffung und potenziell stehen viel mehr Daten zur Verfügung. Alle drei Paradigmen zusammen erlauben, ein allgemeines System zum Textverstehen vorzubereiten, ohne Daten mühsam zu annotieren. Im nächsten Schritt lässt es sich wesentlich schneller und mit weniger Datenaufwand auf ein konkretes Problem ausrichten. Bei Bildklassifizierern ist dies seit einigen Jahren üblich, was dafür gesorgt hat, dass der Aufwand für den Praxiseinsatz von Bilderkennung deutlich gesunken ist.

Der Kontext zählt

Auf dem Gebiet des Textverstehens brachte der ELMo-Algorithmus einen wichtigen Durchbruch. Er kombiniert existierende Technologien, um Wörtern Bedeutung abhängig vom Kontext, in dem sie zum Einsatz kommen, zuzuordnen. Ein neuronales Netz gewichtet das Wort „Bank“ zum Beispiel je nachdem, ob es zusammen mit „sitzen“ oder mit „Geld“ vorkommt. Besonders hierbei: ELMo kann diese differenzierte Gewichtung lernen, ohne dass ein Entwickler dies zuvor händisch in den Lerndaten annotieren musste, also unsupervised.

ULM-FiT hat diese Idee erweitert. Die unüberwacht gelernten Gewichtungen lassen sich für verschiedene Aufgaben anpassen. Dahinter steckt eine Technik zum Transfer Learning. Im Dezember 2018 veröffentlichte Google das wie ELMo ebenfalls Sesamstraßen-konform benannte BERT-System. Es gestattet unsupervised Pre-Training und Transfer Learning. Seitdem ist die Rede vom „NLP-Image-Net-Moment“, in Anlehnung an die massiven Durchbrüche beim Bilderkennen durch Convolutional Neural Networks im Jahr 2012. Die neuen Techniken lassen für die kommenden Jahre auf große Fortschritte im Bereich NLP hoffen.

Kommentieren