Google Universal Transformer: Besser ĂĽbersetzen mit Machine Learning

Google stellt das im letzten Jahr vorgestellte ML-Modell "The Transformer" nun als "Universal Transformer" in einer erweiterten Version zur VerfĂĽgung.

In Pocket speichern vorlesen Druckansicht 15 Kommentare lesen
Google Universal Transformer: Besser ĂĽbersetzen
Lesezeit: 2 Min.
Von
  • Frank-Michael Schlede

Im Google-AI-Blog stellt Stephan Gouws, Research Scientist im Google Brain Team, den Universal Transformer vor. Dabei handelt es sich um eine Weiterentwicklung des Machine-Learning-Modells The Transformer, das Google bereits im letzten Jahr vorgestellt hat.

Der Universal Transformer verfeinert eine Serie von Vektordarstellungen parallel. (Bild: Google)

Die Google-Mitarbeiter heben hervor, dass bereits The Transformer eine deutliche Überlegenheit über andere Algorithmen zeigte, die für maschinelle Übersetzungen und Aufgaben im Bereich Sprachverständnis zum Einsatz kommen. Die meisten dieser Ansätze zur maschinellen Übersetzung, die auf dem Einsatz von neuralen Netzwerken basieren, setzen laut Google auf Recurrent Neural Networks (RNN), die sequenziell arbeiten. Das bedeutet, dass sie Wörter in einem Satz nacheinander übersetzen. Dabei fließt der Output jedes Schritts in den nächsten Schritt ein. Durch diese Art der sequenziellen Abarbeitung sind solche RNNs sehr langsam, wenn man sie trainieren möchte, da bei längeren Sätzen mehr Schritte zu Abarbeitung benötigt werden.

Der Transformer nutzt hingegen keinen Recurrent-Ansatz, sondern verarbeitet alle Worte oder Symbole parallel und bindet zudem mit einem speziellen Mechanismus Kontext von Worten ein, die innerhalb der Sequenz weiter entfernt sind. Auf diese Art und Weise ist der Transformer in der Lage, weitaus schneller zu trainieren. Er besaß hingegen noch Geschwindigkeitsnachteile, wenn es beispielsweise darum ging, einfache algorithmische Aufgaben wie das Kopieren eines Strings auszuführen. Solche Aufgaben können Modelle wie die Neural GPU oder Neural Turing Machine hingegen mit guter Geschwindigkeit abarbeiten, während sie an großen Aufgaben zur Sprachübersetzung scheitern.

Mit der jetzt zur Verfügung stehenden Version des Universal Transformer haben die Entwickler das Modell erweitert, sodass sie es nun als Turing Complete bezeichnen. Dabei setzen sie auf eine parallele Struktur des bisherigen Transformers, um auf diese Weise eine nach eigenen Angaben sehr viel höhere Trainingsgeschwindigkeit zu erreichen. Wer tiefer in diese Thematik einsteigen möchte, findet im Blogeintrag weitergehende Beschreibungen. Auch das Ausprobieren ist möglich: Der Code, der bei der Evaluierung des Universal Transformers zum Einsatz kam, steht im quelloffenen Tensor2Tensor Repository auf GitHub bereit. (fms)