Big Data auf Mac Mini

Eine neue Software soll es möglich machen, Aufgaben auf kleinen Computern zu erledigen, für die früher Rechencluster notwendig waren. Die Technik könnte Entwicklern helfen, die an modernen Problemen der Informatik arbeiten.

In Pocket speichern vorlesen Druckansicht 46 Kommentare lesen
Lesezeit: 2 Min.

Informatiker an der Carnegie Mellon University (CMU) haben neuartige Algorithmen zur Graphenberechnung entwickelt, die komplexe Aufgaben auch auf einzelnen PCs ausführen können, berichtet Technology Review in seiner Online-Ausgabe. Die Technik könnte Entwicklern helfen, die an modernen Problemen der Informatik arbeiten – zum Beispiel der Schaffung neuartiger Internet-Suchmaschinen oder der Erstellung von Software, mit der Millionen von Verbindungen in einem sozialen Netzwerk analysiert werden können. Bei der dazu notwendigen "Graph Computation" müssen gigantische Datenmengen verarbeitet werden. Deshalb nutzt man dazu normalerweise ganze Rechencluster, die man beispielsweise bei Cloud-Computing-Anbietern wie Amazon anmieten kann.

Das CMU-Verfahren namens GraphChi will dies nun auch auf lokaler Ebene erlauben und nutzt dabei die zunehmend großen Festplatten, die in modernen Rechnern stecken. Ein Graph würde normalerweise zur Analyse im flüchtigen Speicher eines Clusters gelagert. Bei GraphChi wird diese Aufgabe vom RAM auf den Magnetspeicher verlagert.

"PCs haben nicht genügend RAM, um einen kompletten Web-Graphen im Speicher zu halten, aber sie haben Festplatten, auf die viele Daten passen", sagt Carlos Guestrin, Co-Direktor des SelectLab an der CMU, wo GraphChi entwickelt wurde. Das Problem: Festplatten sind im Vergleich zu RAM beim Lesen und Schreiben von Daten deutlich langsamer, was die Berechnungen normalerweise ausbremst. Aus diesem Grund entwickelte Guestrins wissenschaftlicher Mitarbeiter Aapo Kyrola eine effizientere Methode für den Festplattenzugriff.

Laut Guestrin kann ein einzelner Mac mini mit GraphChi den gesamten sozialen Graphen von Twitter aus dem Jahr 2010 berechnen. Dieser enthält immerhin 40 Millionen Nutzer und 1,2 Milliarden Verbindungen. Die dafür gestoppte Zeit: 59 Minuten. "Frühere zu diesem Problem publizierte Ergebnisse sprechen von 400 Minuten mit einem Cluster von rund 1000 Rechnern."

Mehr zum Thema in Technology Review online: