ZFS mit Daten-Deduplikation

Das Solaris-Dateisystem ZFS verfügt jetzt über die Fähigkeit, identische Datenblöcke zu erkennen und nur einmal auf die Platte zu schreiben.

10

03.11.2009, 09:55 Uhr

Lesezeit: 1 Min.

Von

Dr. Oliver Diedrich

Wie ZFS-Entwickler Jeff Bonwick in seinem Blog schreibt, enthält ZFS jetzt einen Mechanismus zur Deduplikation von Daten. Dazu versieht das Dateisystem jeden Datenblock mit einer SHA256-Prüfsumme. Datenblöcke mit identischer Prüfsumme werden nur einmal auf die Platte geschrieben und über einen Referenzzähler verschiedenen Dateien zugeordnet. Vorteile bringt das vor allem, wenn größtenteils identische Dateien gespeichert werden, beispielsweise Images von virtuellen Maschinen mit gleichen Gastbetriebssystemen. Der zusätzliche Verwaltungsaufwand ist dabei verhältnismäßig gering, da ZFS sowieso jeden Datenblock mit einer Prüfsumme absichert.

Laut Bonwick ist die Wahrscheinlichkeit einer Hash-Kollision (unterschiedliche Daten erhalten die gleiche Prüfsumme) bei SHA256 50 Mal geringer als die Wahrscheinlichkeit eines nicht korrigierbaren Hardwarefehlers. Trotzdem bietet ZFS die Möglichkeit, bei identischen Hashes zusätzlich die Daten selbst zu vergleichen. In diesem Fall empfiehlt der Entwickler, einen weniger rechenaufwenigen Hash-Algorithmus zu verwenden.

Zu ZFS siehe auch: