Hotchips: Oracle schneidert SPARC-Prozessor mehr auf die hauseigene Software zu
Der neue Sparc-T4-Prozessor soll weniger Kerne und weniger Threads haben als sein Vorgänger, aber dank mehr Cache und Taktfrequenz dennoch schneller sein.
- Erich Bonnert
- Benjamin Benz
Oracles Hardware-Abteilung (vormals: Sun Microsystems) verfolgt mit dem Design des Server-Prozessors SPARC T4 nicht mehr allein das Ziel, die meisten Software-Threads zu unterstützen. Mit 64 Threads bewältigt der T4 nur halb so viele wie sei Vorgänger T3. Dennoch sei er mindestens doppelt so leistungsfähig und kommt wesentlich besser mit heterogenen Aufgabenprofilen zurecht, erklärte Senior Hardware Architect Robert Golla auf der Chip-Konferenz Hot Chips in Stanford.
Das SPARC-Architekturteam ist laut Golla nach der Oracle-Übernahme weitgehend unverändert geblieben. Die Entwickler hatten sich indes vorgenommen, die ehemalige Niagara-Architektur zielgerichtet umzubauen. So wurde die Zahl der Kerne vom Vorgänger SPARC T3 von 16 auf 8 verkleinert und die neuen S3-Kerne bedeutend umgekrempelt. Erstmals hängen die Recheneinheiten an einem gemeinsamen L3-Cache von 4 MByte sowie einem zentralen Crossbar-Switch. Beim T3 hatten die 16 S2-Cores lediglich 6 MByte gemeinsamen L2-Cache zur Verfügung und wurden über einen mehrstufigen Crossbar mit Daten gefüttert. Jetzt greifen die Kerne auf je 128 KByte privatem L2-Cache zu. Die Integer-Pipeline wurde auf 16 Stufen erweitert und die Taktfrequenz nahezu verdoppelt.
Der T4 werde mit über 3 GHz takten, so Golla. Der T3-Takt liegt bei 1,65 GHz. Darüber hinaus arbeiten die Kerne jetzt auch mit Out-of-Order-Verfahren und Dynamic Threading – sie machen mit Hilfe des Perceptron-Predicters insbesondere intensiven Gebrauch von Verzweigungsvorhersagen und Prefetchern. Auf die Leistung des Server-Prozessors bei Single-Thread-Anwendungen wirkt dies wie ein Turbolader. So liefert der T4 laut Oracle beim Specint2006 die fünffache und beim Specfp2006 die siebenfache Leistung des Vorgängermodells. Der Befehlsdurchsatz pro Thread wurde verdoppelt, erläuterte Golla. Neue Crypto-Befehle unterstützen außerdem Verschlüsselungsfunktionen des gesamten Oracel-Software-Stacks. Eine PAUSE-Instruktion erlaubt bei "festgefahrenen" Threads die zeitweise Freigabe von vergebenen Ressourcen für andere Befehle oder Threads.
Wie sein Vorgänger wird der Chip in einem 40-nm-Prozess von TSMC produziert; er besteht er aus gut 855 Millionen Transistoren. Zu den weiteren Leistungs- und Energiecharakteristiken wollte Oracle keine Angaben machen. Seit etwa einem Jahr laufe der Prozessor im Test stabil, einen Termin zur Produktfreigabe gibt es noch nicht. (bbe)