High-Performance Computing: Effektive Softwareoptimierung mit File-I/O-Profiling

Bei High-Performance Computing ist der I/O-Durchsatz essenziell für die Systemleistung. Mit I/O-Profiling-Werkzeugen finden sich potenzielle Flaschenhälse.

Artikel verschenken

29.07.2020, 07:00 Uhr

Lesezeit: 14 Min.

iX Magazin

Von

Rainer Keller
Philipp Köster

High-Performance Computing: Effektive Softwareoptimierung mit File-I/O-Profiling
File-I/O: Überwachung von Dateizugriffen
Analysen
Fazit

Artikel in iX 8/2020 lesen

File-I/O kann aufgrund der benötigten Zeit zu einem Flaschenhals werden. Mit den passenden Werkzeugen ist dieser Flaschenhals jedoch lokalisierbar. Dadurch lassen sich die einzelnen Dateizugriffe durch die Auswahl der effizientesten Funktionen optimieren. Zudem kann man durch geschicktes Nutzen interner Puffer die Anzahl der Zugriffe auf das notwendige Minimum reduzieren. Im Rahmen einer derartigen Optimierung lässt sich zudem die Parallelisierung eines Programms überprüfen.

Das Schreiben und Lesen von Dateien kann viel Laufzeit eines Programms in Anspruch nehmen. Die Verarbeitung von Daten im Prozessor wird entsprechend dem mooreschen Gesetz immer schneller. Erreichte man dies früher durch mehr Transistoren auf der gleichen Fläche und durch einen schnelleren Takt, steigt heute die Rechenleistung zunehmend durch Parallelisierung. Durch diese Beschleunigung der Verarbeitung bei nahezu gleicher Bandbreite und Latenz des Hauptspeichers wird der Zugriff auf Daten zum Flaschenhals (Stichwort Memory-Wall). Die Prozessoren verarbeiten Daten schneller, als sie aus dem Hauptspeicher oder von einem Speichermedium gelesen werden können. Das Schreiben der Ergebnisse bremst die gesamte Berechnung.

Diese Entwicklung trifft Systeme umso stärker, je höher deren Parallelisierungsgrad ist. Das Problem ist essenziell bei Systemen, die nicht nur innerhalb eines Prozessorkerns (mittels SIMD und Hyperthreading), mit mehreren Kernen in einem Prozessor oder mehreren Prozessoren in einem Rechenknoten, sondern mit mehreren über ein Netzwerk verbundenen Rechenknoten arbeiten. Dies trifft insbesondere im High-Performance Computing (HPC) zu, bei dem Rechenknoten über schnelle Netzwerkverbindungen (InfiniBand) zu Clustern mit Millionen von Rechenkernen vernetzt sind (beispielsweise IBM Summit am ORNL mit 2414592 Kernen oder HPE Hawk am HLRS mit 720896 Kernen). Hier führt der hohe Parallelisierungsgrad über eine Vielzahl von Threads und Prozessen auf verschiedenen Rechenknoten zu vielen gleichzeitigen, zeitkritischen Zugriffen auf parallele Dateisysteme.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Glasfasermodem oder -router: Was rechnet sich mehr für den Glasfaseranschluss?

Den alten Router behalten und ein Glasfasermodem anschließen oder einen neuen Glasfaserrouter kaufen? So treffen Sie die richtige Entscheidung.

Vier In-Ear-Kopfhörer im Test

Bassmächtig oder audiophil: In-Ear-Kopfhörer Creative Aurvana Ace 3, Edifier NeoPlanar, Technics EAH-AZ1000 und Status Pro X im Test.

Kaufberatung: So finden Sie die passenden PC-Komponenten für Ihre Anwendungen

PC-Selbstbauer stehen vor einer riesigen Auswahl an CPUs, SSDs und Grafikkarten. Wir geben Tipps, wie Sie die richtigen Teile für Ihre Bedürfnisse auswählen.

Darum ist die Hybridheizung fast nie die beste Lösung

Die Hybridheizung steht als eine Standardlösung im Gebäudeenergiegesetz. Mittlerweile hat die Wärmepumpe allerdings auch im Bestand längst überholt.

Philips TV-Topmodell 65OLED950 im Test: Ambilight und brillantes HDR

Leuchtstarkes OLED-Panel, effektive Bildoptimierung, guter Sound und Ambilight machen den 65OLED950 zum Top-TV. Das Flair früherer Philips-Fernseher fehlt aber.

Was 100 Kilometer mit dem Elektroauto Ende 2025 wirklich kosten

Versicherung, Wartung und mehr: Die Fahrtkosten setzen sich aus vielen Faktoren zusammen. Der Vergleich von zwölf Modellen zeigt, womit Sie rechnen sollten.