Hot Chips: Virtuelle Opteron-Server mit Infiniband-Interconnect

Ein Spezial-Chip von 3 Leaf Systems verschaltet Module aus je zwei Opterons via Infiniband oder 10-GBit-Ethernet zu großen Multi-Socket-Servern und sichert dabei die Cache-Kohärenz.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 3 Min.

Der TL1550 verknüpft zwei kohärente HT-Links mit IB- oder 10GE-Netzen.

Die Firma 3 Leaf Systems hat mit dem ASIC TL1550 anscheinend einen Erben des bisher nie erschienenen Horus fabriziert, den das ehemalige IBM-Chipsatz-Mastermind Rich Oehler bei der gemeinsam mit Ex-AMD-CTO Phil Hester gegründeten Firma Newisys entwickelt hatte: Der TL1550 ist nämlich dazu gedacht, Module aus je zwei AMD-Opteron-Prozessoren über (DDR-)Infiniband- oder 10-Gigabit-Ethernet-Links zu größeren Multiprozessorsystemen zu verschalten. Dabei stellt der TL1550 sicher, dass die Caches der Prozessoren kohärent bleiben.

3 Leaf Systems hatte im vorigen Jahr mit dem V-8000 Virtual I/O Server ein solches Modul vorgestellt, das als Stateless Machine Teil einer flexiblen und dynamischen Infrastruktur für Rechenzentren sein soll. Virtuelle Maschinen (VMs), die auf diesen Stateless Machines laufen, lassen sich dann je nach Bedarf leicht um Ressourcen wie zusätzliche Rechenkerne, Hauptspeicher und Netzwerkports erweitern oder zwischen unterschiedlichen Hardware-Knoten verschieben. Solche Virtual Compute Environments sind die Basis vieler zurzeit oft genutzter Marketing-Begriffe wie Dynamic Data Center, Cloud Computing, Business Agility oder Virtual Fabric.

Der TL1550 bindet über zwei kohärente HyperTransport-(cHT-)Links zwei CPU-Fassungen an und verknüpft sie mit zwei Netzwerkports, die entweder im DDR-Infiniband-Modus (je 20 GBit/s) oder im 10-GBit-Ethernet-(10GE-)Modus arbeiten. Die Verbindung zu anderen Server-Modulen erfolgt dann über ein DDR-IB- oder 10GE-Netz mit den passenden Switches.

Virtuelle Maschinen lassen sich auf dem Fabric flexibel erzeugen.

Der TL1550 implementiert ein proprietäres, angeblich besonders schlankes Datentransferprotokoll mit kleinem Overhead, das er direkt in Ethernet-Frames verpackt – eine weitere Protokollschicht wie IP entfällt. Die Latenzzeiten für Zugriffe auf Speicher eines entfernten Server-Moduls (Remote DMA) sollen bei etwa 1 Mikrosekunde liegen. Damit diese Totzeit möglichst selten auftritt, bindet der TL1550 144 MByte DDR2-SDRAM als zusätzlichen Cache an.

16 MByte davon verwaltet der TL1550 wie einen 8-fach assoziativen L4-Cache (in den Opterons stecken die Cache-Ebenen L1, L2 und L3) mit einer Granularität von 64 Byte, also der Cache Line Length eines Opterons. Die restlichen 128 MByte dienen als Puffer für (4-KByte-)Pages des RAM der angeschlossenen Server-Module. Per Software lässt sich steuern, welche Adressbereiche gepuffert werden sollen, die Verwaltung erfolgt aber nach dieser Einstellung ebenfalls in der Hardware.

Laut 3 Leaf Systems soll ein TF1550 rund 20 Watt Leistung aufnehmen und "deutlich weniger" kosten als ein Opteron. Von HT 3.0 war nicht die Rede, aber bald will 3 Leaf Systems auch Intels QPI der kommenden Nehalem- und Itanium-Prozessoren unterstützen. Intel Capital ist an 3 Leaf Systems beteiligt.

Chipsätze für große Server, insbesondere der von IBM für die skalierbaren Server mit Xeon-Prozessoren mit einem Aufwand von angeblich bisher über 100 Millionen US-Dollar seit Jahren fortenwickelte Summit (die aktuelle Generation heißt eX4) arbeiten ähnlich wie der TL1550. Der IBM Summit/Hurricane ist allerdings für FSB-Prozessoren gedacht und enthält deshalb auch einen Speichercontroller, der proprietäre ScaleXpander (früher Scalability Port) ist nur zur Verknüpfung von bis zu vier (Quad-Socket-)Server-Modulen ausgelegt.

Zur Hot-Chips siehe auch:

(ciw)