Deep Learning: Nvidia und Inferencing mit Hyperscale-Datenzentren

Ein Trend aus dem Bereich Machine Learning und KI ist das Inferencing, bei dem durch Schlussfolgerungen neue Aussagen aus bestehenden Wissensdatenbanken abgeleitet werden. Auch hier vermeldete Nvidia auf der GTC 2018 in San José neue Rekorde.

14

(Bild: Roland Austinat)

29.03.2018, 09:32 Uhr

Lesezeit: 3 Min.

Von

Roland Austinat

Für KI-Anwendungsfälle drängen sich GPUs aufgrund ihrer Architektur im Vergleich zu einer CPU geradezu auf. Das zeigt ein Vergleich zwischen einer aktuellen Nvidia GV100 GPU und einer CPU, wie sie für solche Anwendungen normalerweise eingesetzt wird: Die GPU erledigt ihre Arbeit 36 (Sprachsynthese) bis 190 Mal (Bild-/Videoerkennung mit ResNet-50) schneller. Das bei diesen Beurteilungen eingesetzte Nvidia-Tool TensorRT liegt in der brandneuen Version 4 vor, die von Nvidia und Google in TensorFlow 1.7 integriert wurde. Diese Inferencing-Software bestimmt im Vergleich zum Vorgänger jetzt 2600 statt 600 Bilder pro Sekunde.

Kaldi-Optimierungen und ONNX-Support

Nvidia half außerdem bei der Optimierung von Kaldi mit. Die derzeit populärste Sprachumgebung der Welt soll durch den Einsatz von GPUs noch flinker und noch genauer auf Sprachbefehle von Benutzern reagieren und weniger Rückfragen an sie haben. Das freut die Betreiber von Datenzentren, denn dort verschlingen die meisten Assistenten derzeit noch viel kostbare Rechenzeit.

Auch KI-Umgebungen, die mit dem Open-Source-Format Open Neural Network Exchange (ONNX) entwickelt werden, lassen sich ab sofort auf Nvidias Deep-Learning-Plattformen installieren. Kurzum: Alle Optimierungen erlauben den Full-Stack-Einsatz von GPUs in Hyperscale-Datenzentren mit weltweit etwa 30 Millionen Hyperscale-Servern, die über alle genannten Anwendungsfälle im Mittel um den Faktor 100 beschleunigt werden könnten.

Multi-Cloud-GPU-Cluster mit Kubernetes

Das ursprünglich von Google entwickelte Open-Source-System Kubernetes hilft jetzt dabei, selbstheilende Multi-Cloud-GPU-Cluster mit Nvidia-GPUs zu verwalten. Was dieser schon arg nach Buzzword-Bingo klingende Satz bedeutet, führte Jensen Huang und sein Team in einer durchaus beeindruckenden Demonstration anschaulich vor. Dabei lief zunächst ein ResNet mit TensorFlow auf einer Skylake-CPU: Das neurale Netz erkannte aus einem Pool an Fotos 4,2 Blumen pro Sekunde. Mit einer Volta-GPU erkannte das System 873 Blumen pro Sekunde.

In der Cloud per Kubernetes-Load-Balancing werden acht SaturnV-Systeme von Nvidia mit der Identifizierung der Grünstengel beauftragt. Damit erkennt die Inferencing-Software 6853 Blumen pro Sekunde. Fast etwas wenig, wenn man bedenkt, dass sich hinter jedem Supercomputer 125 DGX-1 Server mit 5280 GPUs verbergen. Doch Kubernetes kann noch mehr: Was, wenn nun die Hälfte der externen Cloud-GPUs ausfällt? Kein Problem, Kubernetes klinkt dann eigenständig vier Volta-Server der Amazon Web Services ein. Nach kurzem Geschwindigkeitseinbruch geht es mit 7130 Bildern pro Sekunde sogar noch etwas schneller als vorher weiter. (olb)