Rekordverdächtig: Microsoft sortiert 1,4 TByte in 60 Sekunden

Einen neuen Rekord will Microsoft im MinuteSort-Benchmark aufgestellt haben. Die Forscher setzten dabei auf Flat Datacenter Storage (FDS), eine performante Netztechnik mit hoher Bandbreite für Big-Data-Anwendungen.

In Pocket speichern vorlesen Druckansicht 81 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Robert Lippert

1 401 GBytes in 60 Sekunden – mit einem neuen technischen Ansatz will Microsoft die Suche in großen Datenmengen spürbar beschleunigen. Ein jetzt vorgestellter Proof-of-Concept soll die Wirksamkeit des Flat Datacenter Storage (FDS) genannten Verfahrens belegen. Die Forscher wendeten es im sogenannten MinuteSort-Benchmark an, eigenen Angaben nach brachen sie dabei gleich zwei Rekorde, unter anderem einen auf Grundlage von Hadoop aus dem Jahr 2009.

Der MinuteSort-Benchmark kann in zwei Varianten durchgeführt werden. Die "Indy"-Version erlaubt eine individuelle Konfiguration des zu testenden Systems, und eine "Daytona"-Variante sieht definierte Rahmenbedingungen vor, die Tester einzuhalten haben. Letztere sei die schwierigere Hürde, da man hier mit einem allgemeinen Ansatz ein speziellen Problem lösen müsse.

Mit einem Einsatz von nur 250 Rechnern hat das Microsoft-Team in 60 Sekunden 1 401 GBytes an Daten (verteilt auf 1 033 Plattenspeicher) sortieren können. Das entspräche nur einem sechstel der Hardware-Ressourcen, die der "Daytona"-Rekordhalter Yahoo mit einem Ergebnis von 500 GByte Daten im Jahre 2009 aufgestellt hätte. Gleichzeitig übertreffen die Forscher mit ihrer Systemkonfiguration auch den Rekordhalter des spezialisierten "Indy"-Testes – 2011 konnte ein Team der Universität Kalifornien, San Diego, mit 66 Nodes rund 1 353 GByte an Daten im MinuteSort-Benchmark sortieren.

Technisch setzen die Forscher bei Microsoft auf ein Flat Datacenter Storage genanntes Verfahren, bei dem jeder Rechner im Netz auf alle Daten zugreifen kann, in Verbindung mit einem Netzwerk mit voller Bisektionsbandbreite. Daten konnten hier mit jeweils bis zu 2 GByte pro Sekunde gelesen und geschrieben werden, was in etwa dem 20-fachen der Bandbreite entsprechen soll, wie sie gegenwärtig auf den Rechnern in vielen Datencentern zur Verfügung stünde. Die Forscher betonen, dass sie die Performance des Systems durch den Einsatz eines Remote File Systems bewusst gedrosselt haben, um die Leistungsfähigkeit ihrer FDS-Struktur zu demonstrieren.

Als typische Anwendungsfälle für die Technik nennt Microsoft die schnelle Auslieferung von Bing-Suchergebnissen im Speziellen und Big-Data-Analysen im Allgemeinen. Konkrete Details sollen derzeit auf der SIGMOD/PODS-Konferenz in Arizona vorgestellt werden. (rl)