Spielekonsolen und Supercomputer

Nvidia öffnet den Quellcode seines CUDA-Compilers und unterstreicht das Ziel, 2012 mit Tesla-Karten einen Supercomputer an die Weltspitze zu hieven.

31.12.2011, 00:00 Uhr

Lesezeit: 5 Min.

c't Magazin

Von

Holm Landrock

Mitte Dezember fand Nvidias Hausmesse GPU Technology Conference erstmals außerhalb der USA statt – mit der Wahl China setzte die Grafikkartenfirma ein Zeichen. Insgesamt kamen rund 1400 Teilnehmer in Pekings China National Congress Center zusammen. Dazu lud Nvidia noch Pressevertreter aus aller Welt ein.

Nvidia-CEO Huang: „Intels MIC-Architektur fehlt vor allem eines: die breite Basis des Spielemarktes.“

Nvidia-Chef Jen-Hsun Huang betonte während seiner Eröffnungsrede, dass es in China unzählige gute Software-Entwickler fürs High Performance Computing (HPC) gebe. Diese würden ohne Altlasten an die GPU-Programmierung herangehen können. Zudem will das chinesische Bildungsministerium die CUDA-Programmierung von Grafikchips in den Lehrplan von Universitäten ab der zweiten Hälfte 2012 aufnehmen. 200 Universitäten sollen mitziehen und den Kurs „GPU-Based Parallel Computing“ anbieten, der in Zusammenarbeit mit Nvidia entstanden sein soll.

Die erhofften neuen Details zu Nvidias im ersten Halbjahr 2012 erwarteten 28-Nanometer-Grafikchips mit Kepler-Architektur gab es indes nicht zu hören – dafür allerhand Ankündigungen. Noch 2012 soll der Supercomputer Titan am US-amerikanischen Oak Ridge National Laboratory mit über 18 000 Kepler-GPUs die 20-Petaflops-Marke knacken und ihn an die Spitze der Top-500-Liste katapultieren. Außerdem stellte Nvidias HPC-Chef Sumit Gupta in Aussicht, dass der Supercomputer Blue Waters des US-amerikanischen National Center for Supercomputing Applications mit 3000 Kepler-GPUs erweitert werden soll. Jen-Hsun Huang bekräftigte außerdem das bereits auf der Supercomputing-Konferenz 2011 erklärte Ziel, dass es bis 2019 einen Hybrid-Supercomputer mit einer Leistung von 1 Exaflops bei einem Energieverbrauch von weniger als 20 MWatt geben werde.

Keine Zukunftsorakelei dagegen war das Veröffentlichen des Quellcodes zum LLVM-basierten CUDA-Compiler. Er ist ein Teil der CUDA-Entwicklungsplattform 4.1 und soll nun die Verbreitung des GPGPU-Konzepts auf andere Prozessor-Architekturen und Programmiersprachen steigern. Darunter fallen auch AMD-GPUs und Intel-CPUs. Kostenlosen Zugriff auf den Quellcode erhalten zunächst bei Nvidia registrierte Entwickler.

Was Wissen schafft

Den Schwerpunkt der GTC Asia machten indes die wissenschaftlichen Vorträge aus. Beispielsweise erläuterte Dan Negrut von der Universität Wisconsin die von ihm und seinen Studenten entwickelte Methode der Partikelsimulation. Ziel seiner Untersuchungen war es, das Verhalten von Fahrzeugen auf Kies-Untergrund im Computer zu simulieren, ohne einen Prototypen bauen zu müssen. Für die Berechnung der Aufgaben nutze Negrut ein System mit einer Rechenleistung von 20 Teraflops, das rund eine Million GPU-Threads parallel ausführen kann. Jeder Compute-Node des für seine Berechnungen genutzten Systems besteht aus zwei Xeon-5520-CPUs und vier Tesla-C1060-GPUs, jede mit 240 CUDA-Rechenkernen und 4 GByte RAM. Die Knoten sind über ein Mellanox Infiniband Interconnect mit 40 GBit/s verknüpft. Wurden die Steine unter den Rädern eines Geländefahrzeugs vor drei Jahren noch als faustgroße Kartoffeln simuliert, so werden dank GPGPU jetzt schon golfballgroße Partikel berechnet. Prinzipiell ist laut Negrut nicht die Verfügbarkeit von leistungsstarker Hardware das Hindernis für die Wissenschaft: „Das Problem ist vielmehr die Erarbeitung der mathematischen Modelle und der Lösungsansätze, die die Hardware ausschöpfen.“

Weitere Vorträge beschäftigten sich mit der Entschlüsselung vom H1N1-Virus und des E.coli-Bakterienstamms, der 2011 in Deutschland für Todesfälle gesorgt hatte, der Klimaforschung und dem Erkunden von Bodenschätzen.

Spielemarkt treibt Supercomputing

Nur rund vier bis fünf Prozent des Umsatzes erwirtschaftet Nvidia mit GPUs für Supercomputer. Den Großteil des Umsatzes machen die Grafikkarten für den Spielemarkt und für Workstations aus. Nvidia hat mit seiner Strategie, zuerst die Grafikkarten für den Spielemarkt zu entwickeln und daraus für den Nischenmarkt Supercomputing die Technik abzuleiten, einen Trumpf in der Hand. Dem Wettbewerber Intel fehle hingegen für seine geplante Many-Integrated-Cores-Architektur (MIC, Knights Corner) vor allem diese breite Basis eines Spielemarktes, so Huang, denn ohne diese wird die Entwicklung einer Prozessorplattform fürs High Performance Computing, die schließlich Milliarden koste, einfach unwirtschaftlich.

Der zweitschnellste Rechner der Welt Tianhe-1A läuft inzwischen seit über einem Jahr mit der Rechenpower von Tesla-GPUs. Zu seinen Aufgaben gehört die Rohstofferkundung für China.

Und die Wirtschaftlichkeit von Supercomputern, so unterstrich Huang, sei wichtiger als Regierungsprogramme fürs nationale Prestige – ein Seitenhieb auf den japanischen K-Computer: „Der K-Computer wurde zehn Jahre lang geplant, fünf Jahre lang gebaut und kostete Milliarden. Mit GPUs lassen sich Supercomputer viel günstiger und vor allem schneller bauen – mit Komponenten aus dem Regal.“ Das klingt knackig, aber auch das Vorzeigesystem für GPU-Supercomputing, der Tianhe-1A, wurde im zehnten Fünfjahresplan der chinesischen Regierung in Angriff genommen, im elften fertiggestellt und aus dem chinesischen Staatsetat finanziert.

Diesen Tianhe-1A durfte dann die Presse im Rahmen einer kurzen Stippvisite zum National Supercomputing Center in Tianjin besichtigen. Dort war gerade mal eine Frage erlaubt und das auch erst nach längerer Verhandlung. Denn schließlich wurde der Rechner vom chinesischen Verteidigungsministerium NUDT finanziert und das Meiste läuft daher unter strengster Geheimhaltung. Immerhin gab Rechenzentrumsleiter Liu an: „Wir sind glücklich, viele zivile Applikationen rechnen zu dürfen.“ So hätten Wissenschaftler von der Chinese Academy of Science (CAS) Zugriff. Diese konnten bereits im Sommer einen neuen Rekord in einer klassischen wissenschaftlichen Disziplin vermelden: Bei der Simulation des Verhaltens von 110 Milliarden Silizium-Atomen erzielten sie dank der 7168 Nvidia-GPUs 1,87 Petaflops effektive Rechenleistung und überboten damit den bis dahin gültigen Bestwert um den Faktor fünf. (mfi)