zurück zum Artikel

Big Data auf Mac Mini

Ben Schwan

Eine neue Software soll es möglich machen, Aufgaben auf kleinen Computern zu erledigen, für die früher Rechencluster notwendig waren. Die Technik könnte Entwicklern helfen, die an modernen Problemen der Informatik arbeiten.

Informatiker an der Carnegie Mellon University (CMU) haben neuartige Algorithmen zur Graphenberechnung entwickelt, die komplexe Aufgaben auch auf einzelnen PCs ausführen können, berichtet [1] Technology Review in seiner Online-Ausgabe. Die Technik könnte Entwicklern helfen, die an modernen Problemen der Informatik arbeiten – zum Beispiel der Schaffung neuartiger Internet-Suchmaschinen oder der Erstellung von Software, mit der Millionen von Verbindungen in einem sozialen Netzwerk analysiert werden können. Bei der dazu notwendigen "Graph Computation" müssen gigantische Datenmengen verarbeitet werden. Deshalb nutzt man dazu normalerweise ganze Rechencluster, die man beispielsweise bei Cloud-Computing-Anbietern wie Amazon anmieten kann.

Das CMU-Verfahren namens GraphChi will dies nun auch auf lokaler Ebene erlauben und nutzt dabei die zunehmend großen Festplatten, die in modernen Rechnern stecken. Ein Graph würde normalerweise zur Analyse im flüchtigen Speicher eines Clusters gelagert. Bei GraphChi wird diese Aufgabe vom RAM auf den Magnetspeicher verlagert.

"PCs haben nicht genügend RAM, um einen kompletten Web-Graphen im Speicher zu halten, aber sie haben Festplatten, auf die viele Daten passen", sagt Carlos Guestrin, Co-Direktor des SelectLab [2] an der CMU, wo GraphChi entwickelt wurde. Das Problem: Festplatten sind im Vergleich zu RAM beim Lesen und Schreiben von Daten deutlich langsamer, was die Berechnungen normalerweise ausbremst. Aus diesem Grund entwickelte Guestrins wissenschaftlicher Mitarbeiter Aapo Kyrola eine effizientere Methode für den Festplattenzugriff.

Laut Guestrin kann ein einzelner Mac mini mit GraphChi den gesamten sozialen Graphen von Twitter aus dem Jahr 2010 berechnen. Dieser enthält immerhin 40 Millionen Nutzer und 1,2 Milliarden Verbindungen. Die dafür gestoppte Zeit: 59 Minuten. "Frühere zu diesem Problem publizierte Ergebnisse sprechen von 400 Minuten mit einem Cluster von rund 1000 Rechnern."

Mehr zum Thema in Technology Review online:


URL dieses Artikels:
https://www.heise.de/-1648090

Links in diesem Artikel:
[1] https://www.heise.de/hintergrund/Big-Data-auf-einem-Mac-mini-1648072.html
[2] http://www.select.cs.cmu.edu/
[3] https://www.heise.de/hintergrund/Big-Data-auf-einem-Mac-mini-1648072.html