Hadoop-Queries mit Pinterests internem Werkzeug Terrapin verwalten

Datenbankabfragen für Big-Data-Anwendungen auf Hadoop sollen mit Terrapin effizienter werden. Pinterest hat das Werkzeug seit einem Jahr im Produktivbetrieb und gibt es nun als Open Source frei.

5

16.09.2015, 15:29 Uhr

Lesezeit: 1 Min.

Developer

Von

Rainald Menge-Sonnentag

Auf Facebooks @Scale-Konferenz kündigte das soziale Netz Pinterest an, sein Tool Terrapin als Open-Source-Software freizugeben. Ursprünglich nutzten die Pinterest-Entwickler das zu Hadoop gehörige HBase für Datenbankanfragen. Laut einem Blogbeitrag war es aber bei größeren Datenmengen zu langsam und stieß bei Datensätzen im dreistelligen Gigabytebereich an seine Grenzen. Die Bulk-Upload-Funktion von Hadoop löste zwar die anfänglichen Probleme, führte aber durch die Verteilung der Daten auf ein Cluster zu erhöhten Latenzen beim Zugriff.

Architektur von Terrapin

(Bild: Pinterest)

Pinterest erfindet das Rad nicht neu, sondern nutzt das HFile-Format von HBase und das Hadoop-eigene Dateisystem HDFS. Terrapin behält dabei aber stets den Speicherort der Daten im Blick, um Datenlokalität zu gewährleisten. Auf diese Weise werden die Daten dort verarbeitet, wo sie gespeichert sind. Ein Hadoop-Job kann die Daten direkt auf die Terrapin-Server schreiben oder sie zunächst auf HDFS oder S3 ablegen und in einem separaten Schritt auf Terrapin kopieren.

Das Werkzeug ist bei Pinterest bereits seit einem Jahr im Produktiveinsatz und verwaltet dort eine Datenmenge von etwa 180 Terabyte, die auf rund 100 Filesets mit gut 50.000 Dateien verteilt sind. (rme)