GTC 2012: Tesla K20 mit Super-GPU kommt Ende 2012
Noch 2012 soll die erste Tesla-Rechenkarte K20 mit GK110-GPU erscheinen. Dank Hyper-Q und Dynamic Parallelism sollen sich Programme effizienter verarbeiten und programmieren lassen.
Auf der GPU Technology Conference hat Nvidia-Chef Jen-Hsun Huang die erste Tesla-Rechenkarte mit der zukünftigen, aus 7,1 Milliarden Transistoren bestehenden GK110-GPU angekündigt. Die Karte hört auf den Namen Tesla K20 und soll Ende 2012 erscheinen.
Wieviele Rechenkerne die K20-GPU enthalten wird, ist noch unklar. Wie der Nvidia-Mitarbeiter Sumit Gupta erklärte, schwanke man derzeit noch zwischen zwei Konfigurationen mit jeweils 13 oder 14 SMX-Rechenclustern. Jedes Cluster besteht wiederum aus 192 Recheneinheiten, sodass die Tesla-K20-GPU entweder 2496 oder 2688 Kerne enthält. Der Maximalausbau mit 2880 Shader-Rechenkernen kommt auf der K20 nicht zum Einsatz. Der Speicher soll über 384 Datenleitungen angebunden sein. Wieviel Speicher allerdings auf der Platine sitzen wird, ist noch unklar.
Im Vergleich mit den jetzt schnellsten Tesla-Rechenkarten soll die K20 eine um den Faktor 3 höhere Double-Precision-Leistung bieten und sich daher unter anderem besonders für naturwissenschaftliche Forschungsbereiche und Finanzkalkulationen eignen. An der Platine der Tesla K20 sitzt je ein sechs- und ein achtpoliger Stromanschluss, sodass sie bis zu 300 Watt aufnehmen darf.
Von großer Bedeutung für den Supercomputing-Bereich sind die neuen Funktionen Dynamic Parallelism und Hyper-Q. Dank letzterem können die CPU-Kerne bis zu 32 MPI-Tasks parallel auf der GK110-GPU ausführen, die Fermi- und GK104-GPUs schaffen nur jeweils einen MPI-Prozess. Dank Hyper-Q soll sich die GK110-GPU also deutlich besser auslasten lassen; außerdem werden die CPU-Leerlaufzeiten verringert.
Dynamic Parallelism bedeutet, dass ein auf der GPU ablaufender Thread wiederum dynamisch neue Kernel erzeugen kann und somit beispielsweise auch rekursive Funktionen selbstständig abarbeitet, ohne auf die CPU angewiesen zu sein. Die GPU kann sich also dynamisch an die zu verarbeitenden Daten anpassen. Das erleichert zum einen die Programmierung und erlaubt zum anderen die Ausführung noch komplexerer Algorithmen als bisher. Nvidia erklärte beispielsweise, dass sich damit ein zwischen 200 und 300 Zeilen langer Fermi-Programmcode mit Kepler-GK110 auf rund 30 Zeilen reduzieren lassen konnte.
Einen Fortschritt konnte Nvidia auch bei der GPUDirect-Technik machen, mit der GPUs Daten zwischen ihren Speichern austauschen können, ohne den Umweg über den langsamen Systemspeicher gehen zu müssen. Mit Kepler-GPUs lässt sich das nicht nur innerhalb von Servern bewerkstelligen, sondern auch zwischen Grafikkarten verschiedener Server direkt über eine Netzwerkverbindung (Remote Direct Memory Access/RDMA).
Um die neuen Funktionen nutzen zu können, ist man auf Version 5 der CUDA-Schnittstelle angewiesen. Auf der GPU Technology Conference hat Nvidia bereits eine Preview-Version präsentiert, die sich registrierte Entwickler herunterladen können sollen. Die finale Version soll im dritten Quartal des Jahres erscheinen. (mfi)