Hot Chips: Paradigmenwechsel beim Arbeitsspeicher

Rambus sieht den Übergang von der "Latency Era" über die aktuelle "Bandwidth Era" zur künftigen "Throughput Era".

In Pocket speichern vorlesen Druckansicht 58 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Benjamin Benz

Am Tag 0 der 20. Hot-Chips-Konferenz widmete sich die erste Tutorial-Session dem Arbeitsspeicher der Zukunft: In der Memorial Hall der Uni Stanford legte Rambus-Fellow Craig Hampel dar, wie sich die Entwicklungsziele bei Arbeitsspeicher im Laufe der vergangenen Jahre verändert haben. Bis in die 90er-Jahre – die "Latenz-Ära" – habe man primär versucht, die Latenzzeiten zu minimieren und diesem Ziel alles andere untergeordnet. Allerdings sinkt die Latenzzeit von DRAM wesentlich langsamer, als es das Moore'sche Gesetz für die CPU-Performance postuliert.

Mit dem Aufkommen von Sprungvorhersageeinheiten, spekulativer Ausführung, Simultaneous Multi-Threading und nicht zuletzt Mehrkern-Prozessoren konnten CPUs Latenzzeiten verstecken, indem sie bei Wartezeiten andere Tasks vorzogen. In der folgenden "Bandwidth Era" wurden die Speicherkanäle immer breiter, zahlreicher und höher getaktet. Dabei stieg insbesondere die Leistungsaufnahme drastisch an. Rambus selbst konnte beim PC-Arbeitsspeicher übrigens nur ein kurzes Gastspiel zu Anfang dieser Ära, etwa von 1999 bis 2003, geben. Rambus' serielles RDRAM steigerte die Latenz von 7,5 ns auf 45 ns und schluckte viel Strom. Dafür stieg die Taktfrequenz von 133 MHz (PC133-SDRAM) auf 533 MHz (PC1066-RDRAM).

Bei CPUs mit vielen Kernen erzeugt ein auf schiere Bandbreite getrimmtes Interface allerdings viele unnötige Transfers: Braucht ein einzelner Core auch bloß ein kleines Datenhäppchen, so belegt er bei Dual-Channel-Speicher das gesamte Interface und erhält in einem Rutsch oft weit mehr Daten als er angefordert hat. Das Lesen von 256 Byte erfordert beispielsweise das Öffnen einer kompletten 64-KByte-Bank. Währenddessen müssen alle anderen Cores warten. Laut Hampel geht es in der bevorstehenden Durchsatz-Ära also primär darum, die Anzahl der Transaktionen pro Sekunde zu steigern, um alle Kerne beschäftigt zu halten. Latenzen lassen sich in einem Multi-Core-System, in dem genügend Tasks ihrer Ausführung harren, gut verstecken. Es geht daher darum, die – in den letzten Jahren recht flott wachsenden Hauptspeicher-Datentransferaten – effizient auf viele Kerne zu verteilen. Aus diesem Grund hat AMD bei den integrierten 2-Kanal-Speichercontrollern der K10-Vierkerne zusätzlich zum Parallel-Betriebsmodus (Ganged Mode) auch einen Modus zum unabhängigen, gleichzeitigen (Unganged-)Betrieb der beiden Kanäle eingebaut.

Ein Trend, den Rambus seit 2005 sieht, ist Micro-Threaded DRAM, bei dem ein Speicherchip zwei Adressen auf einmal erhält und dann parallel zwei Datenhäppchen ausspuckt. Damit wäre die Zugriffsgranularität halbiert, es müssten weniger unbenötigte Daten parallel transportiert werden. Grundsätzlich ist es auch möglich, Zugriffe zu sammeln und dann in sinnvoller Zusammenstellung auszuführen. Dabei tauscht man allerdings Latenz gegen Effizienz.

Zuletzt sprach Hampel über die Terabyte Bandwith Initiative, deren Ziel es ist, 1 TByte/s an Daten an ein einzelnes System-on-Chip (SoC) zu liefern. Die Daten sollen über differenzielle serielle Links mit jeweils 16 GBit/s flutschen. Allerdings handelt es sich dabei noch nicht um konkrete Produkte, sondern lediglich um Testchips und Studien. (bbe/c't) / (ciw)