Prozessorgeflüster

Intel veröffentlicht die Befehlserweiterung für Transactional Memory und hält zahlreiche Vorträge auf der International Solid-State Circuits Conference (ISSCC). AMD packt Induktivitäten in den Piledriver und aus China kommt ein weiterer neuer Prozessor.

3

25.02.2012, 00:00 Uhr

Lesezeit: 6 Min.

c't Magazin

Von

Andreas Stiller

Kaum war das letzte Prozessorgeflüster fertig und zur Druckerei verschickt, da gab Intel die darin angesprochene Erweiterung „Transactional Synchronization Extensions“ (TSX) für die übernächste Prozessorgeneration Haswell bekannt. Für den Umgang mit dieser Technik bietet Intels TSX sogar gleich zwei Schnittstellen. Das sogenannte Hardware Lock Elision (HLE), also das Weglassen zumeist unnötiger Locks (Verriegelungen), verwendet zwei neue Präfixe xacquire und xrelease, mit denen sich bisherige pessimistische Locks im Sinne von Transactional Memory in optimistische umwidmen lassen. Im pessimistischen Fall läuft vorsichtshalber im Bereich kritischer Regionen nur ein einziger Thread. Alle anderen müssen warten, auch wenn diese sich möglicherweise gar nicht in die Quere kommen. Umgekehrt lässt man beim optimistischen Ansatz alle Threads weiterlaufen, muss aber spezielle Behandlungsmöglichkeiten bieten, falls es doch mal zu einem Konflikt kommt. Das Erste entspricht in etwa einer Kreuzung mit Ampelanlage, die vorsichtshalber immer nur eine Spur auf grün schaltet, das Zweite ist eine ampelfreie Kreuzung – mit angeschlossener Werkstatt für den „Konfliktfall“.

Wirklich neu sind die Opcodes der HLE-Präfixe indes nicht, denn mangels Platz im Opcode-Raum hat Intel die beiden seit jeher vorhandenen Rep/Repne-Präfixe (0xF2/0xF3) dafür missbraucht. Diese spielen bislang nur im Zusammenhang mit String-Operationen eine Rolle und werden ansonsten ignoriert. Das Opcode-Recycling hat den großen Vorteil, dass der gleiche Binärcode auch auf älteren Architekturen laufen kann, nur eben wegen der pessimistischen Verriegelung etwas langsamer.

Mächtiger als HLE ist die von TSX ebenfalls angebotene Variante namens Restricted Transactional Memoy, RTM, die drei neue Instruktionen xbegin, xend und xabort bietet. Hier ist der Binärcode dann nicht mehr abwärtskompatibel, läuft also nur auf Haswell und Folgeprozessoren. Wie der Transactional Memory hardwaremäßig realisiert ist, das hat Intel noch nicht verraten, dazu gibt es bislang nur die gut begründeten Mutmaßungen von David Kanter auf www.realworldtech.com.

Terahertz in Sicht

Auch auf der ISSCC Mitte Februar in San Francisco, wo Intel-Entwickler zahlreiche Vorträge hielten, fiel zum Haswell-Prozessor kein Wort, weder zu dessen Transactional Memory noch zu seinem Cache-Design. Zuvor soll ja auch erst einmal Ivy Bridge kommen, dessen Erscheinen sich – zumindest in größeren Stückzahlen – nach neuesten Gerüchten von Ostern auf Pfingsten oder später verzögern dürfte, da angeblich noch so viele Sandy-Bridge-Notebooks wie Blei in den Regalen liegen sollen.

Intel-Entwickler Scott Siers führte aus, dass es zunächst vier Ivy-Bridge-Grundvarianten mit unterschiedlichen Siliziumflächen geben werde, von denen die größte mit rund 1,4 Milliarden Transistoren 160 Quadratmillimeter beträgt. Das Design sieht drei unterschiedliche Trigate-Transistortypen vor, die schnellsten mit normalem Leckstrom, sogenannte „Quarter-Leakage“-Typen mit mittlerer Geschwindigkeit und langsame Transistoren, die nur ein Zehntel des Leckstroms der schnellsten Versionen aufweisen. Die schnellsten Funktionsblöcke der Prozessoren bestehen zu ungefähr 70 Prozent aus den schnellen und zu 30 Prozent aus den mittelschnellen Transistoren, während die unkritischeren Chip-Bereiche zu 75 Prozent aus den besonders sparsamen und zu einem Viertel aus mittelschnellen Transistoren bestehen. Neu ist auch, dass die Spannung beim Ivy-Bridge parabelförmig statt stückweise linear mit der Frequenz hochgefahren wird, was das ein oder andere zusätzliche Milliwatt einspart.

Mit dem Takt will Intel auch bei der nächsten Prozessorgeneration nicht über 4 GHz hinausgehen, obwohl das laut Siers beim Ivy Bridge problemlos drin wäre. Bezüglich Prozessortakt hat sich in den letzten 10 Jahren so arg viel ja nicht getan – aber Chief Product Officer Daddy Perlmutter sprach in seiner Keynote mutig gar schon von Terahertz-Class Clients, die er gegen Ende der Dekade bei nur 20 Watt sieht. Terahertz wirklich „sehen“, das gabs auch, und zwar in einer ganz anderen Session: moderne CMOS-Kameras, die im fernen Infrarot bei 860 GHz auflösen können – gut etwa für Nacktscanner. Da sieht man, was bei CMOS noch alles so drin ist.

Um Induktivitäten zwischen die Takttreiber zu bekommen, muss man Windungen in den oberen beiden Metallschichten des Piledriver-Prozessors einflechten.

(Bild: AMD)

AMD will mit den Piledriver-Kernen auf über 4 GHz, hat dazu eine Resonanz-Taktverteilung von Cyclos Semiconductors in Lizenz genommen und kann als Erster mit einem entsprechenden Design aufwarten. Dieses soll den Energiebedarf der Taktverteilung um 24 Prozent senken. Wenn man bedenkt, dass der Piledriver fünf horizontale Taktbäume besitzt, ein jeder mit 54 Treibern – da kommt was zusammen. Die patente Idee von Cyclos ist, zwischen den Takttreibern mit Schalter überbrückbare Induktivitäten einzufügen, die dann dank LC-Resonanz Ladung rezyklieren können. Nur wie kriegt man Spulen in die Chips? Dazu muss man kunstvoll Windungen in die oberen beiden Metall-Layer hineinflechten.

Während Intel und AMD also ein paar Schaltungstricks zukünftiger Prozessoren verrieten, hat Oracle die Veranstaltung genutzt, um den bereits auf dem Markt befindlichen SPARC T4 etwas genauer zu beschreiben. Der T4 hat zwar weniger, dafür aber weit leistungsfähigere Kerne als sein Vorgänger T3. Schön wären ja mal Benchmark-Ergebnisse von SPECrate2006, um den neuen 8-Kerner direkt mit dem alten 16-Kerner vergleichen zu können – doch die will Oracle offenbar nicht liefern.

Wirklich neue Prozessoren konnte man auch bewundern. So hat schon wieder eine chinesische Universität das Kunststück fertig gebracht, einen solchen aus dem Hut zu zaubern. Im Herbst letzten Jahres kam aus dem Jiangnan Computing Research Lab der ShenWei 1600 mit 16 Kernen, der einen damit bestückten Rechner auf Platz 14 der Top500-Liste der Supercomputer hievte, nun stellte die Fudan-Universität aus Schanghai einen weiteren interessanten 16-Kerner vor. Der kommt ohne Caches aus und arbeitet hybrid sowohl als Cluster mit Message Passing als auch mit Shared Memory. Jeweils 8 der 16 SIMD-RISC-Kerne – mutmaßlich MIPS32-kompatibel – sind um einen Shared-Memoy-Knoten gruppiert. Die beiden Cluster on Chip kommunizieren über drei Links miteinander. Der von TSMC im 65-nm-Prozess gefertigte Prozessor bewältigt eine 3780-Punkte-FFT mit 7 MSamples/s. Bei 750 MHz Takt und 1,2 Volt soll er im Betrieb nur 34 mW/Kern verbrauchen. Die Chinesen legen also kräftig vor, wie gut, dass wenigstens ARM aus Europa kommt. (as)