Von High Performance Computing lernen – Machine Learning im Rechenzentrum

Die meisten Infrastrukturprojekte für Machine Learning scheitern grandios. Das ist vermeidbar, wenn man bereit ist, aus den Erfahrungen im HPC-Umfeld zu lernen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen
,
Lesezeit: 23 Min.
Von
  • Daniel Menzel
Inhaltsverzeichnis

So unterschiedlich KI-Projekte auch sein mögen, zurückzuführen ist ihr häufiges Scheitern meist auf zweierlei: Erstens unterscheiden sich Machine-Learning-Infrastrukturen technisch zum Teil erheblich von klassischen Enterprise-IT-Infrastrukturen – denn welcher File-, Datenbank- oder Nutzerverwaltungsserver profitiert schon von GPUs? Zweitens wachsen Machine-Learning-Projekte erfahrungsmäßig häufig aus den Fachgruppen heraus und in die IT-Abteilungen hinein. Die dabei entstehende Assoziation einiger IT-Leiter mit einem Geschwür ist nicht immer ganz von der Hand zu weisen. Da wirkt dann die Androhung der Fachkollegen, alternativ in die Public Cloud zu gehen, fast schon lukrativ – zumindest so lange, bis die Kosten der Projekte dem Budget der IT-Abteilung zugerechnet werden und man sich dort verwundert den Kopf kratzt, wie viele Nullen eine Kreditkartenabrechnung doch haben kann.

Mehr zu Rechenzentren
Daniel Menzel

Daniel Menzel ist Geschäftsführer der Menzel IT GmbH aus Berlin und baut mit seinem Team HPC-, ML- und Private-Cloud-Computing-Cluster.

Dabei beginnen Machine-Learning-Projekte meist klein – fast möchte man sagen unschuldig: Eine Fachgruppe in einem Forschungsinstitut, einer Hochschule oder einem Unternehmen ist mit einem Projekt betraut, bei dem künstliche Intelligenz als die passende Technik erscheint. Hierbei ist erst einmal völlig irrelevant, ob man nun mittels Röntgenstrahlung die Qualität von Schweißnähten überprüfen, Fahrwege autonomer Gabelstapler optimieren oder automatische Übersetzungen von Pixie-Büchern als Handy-App entwickeln möchte: ML-Neulinge starten regelmäßig erste Gehversuche mit Tools wie PyTorch oder Tensorflow in einer Linux-VM auf ihrem Laptop.

Sehen die Ergebnisse vielversprechend aus, verbessert man seine Tools sukzessive und stackoverflow avanciert dabei zeitweise zur persönlichen Startseite im Browser. Doch nach einiger Zeit folgt die erste Ernüchterung der Forschenden: Die Trainingszeiten lassen sich eher mit dem Kalender als mit der Stoppuhr messen. Man ruft also folgerichtig bei der IT-Abteilung an und beantragt dort eine virtuelle Maschine mit viel CPU, noch mehr RAM und vor allem: GPU-Power. "Wie, VMs mit GPU gibt es nicht? Schade." Ja, dann lässt man sich halt auf den eingebrachten Gegenvorschlag mit einer Workstation ein. Nein, nein, kein Windows notwendig – man installiere sich da selbst Linux drauf.