Ceph-Cluster durchbricht die Marke von 1 TiB/s
Im Rahmen eines Ceph-Umzugs von einer HDD-basierten zu einer NVMe-Umgebung konnten die Marke von 1 TiB/s geknackt werden. Doch der Weg dahin war lang.
Ceph als Storage ist zwar sehr flexibel – es läuft quasi auf jeder Hardware – erfordert im Enterprise-Einsatz mit ansprechenden Leistungswerten aber entsprechendes Feintuning. Im Ceph-Blog beschreibt Mark Nelson, Ceph-Performance-Spezialist bei Clyso, wie seine Firma bei Testläufen während eines Cluster-Migrationsprojekts die Marke von 1 TiB/S geknackt hat.
Ziel des anspruchsvollen Projekts war es, einen in die Jahre gekommenen, aus 17 Racks bestehenden HDD-basierten Ceph-Cluster in eine 10 PetaByte-NVMe-Umgebung zu migrieren. In Abstimmung mit dem Kunden fiel die Wahl auf vier Ceph-Nodes pro Rack, das heiĂźt 68 1U-Server Dell PowerEdge R6615 mit folgender Ausstattung:
- CPU: AMD EPYC 9454P (48 Core)
- 192 GByte DDR5-Speicher
- 2 100GbE Mellanox ConnectX-6
- 10 Dell 15,36 TBye Enterprise NVMe-5 SSDs
Als Betriebssystem kam Ubuntu 20.04 LTS mit Ceph aus den Debian-Upstream-Paketen zum Einsatz.
In seinem Blog-Beitrag beschreibt Nelson sehr detailliert den mĂĽhsamen Weg zur Performance-Optimierung des Clusters. Dabei konnte er diverse Skalierungsprobleme beheben. FĂĽr die Messungen nutzte er den Flexible I/O Tester fio
(), der über mehrere Threads/Prozesse parallele I/O-Aktionen auslösen kann.
Zusammenfassung der Testergebnisse | |||||
30 OSDs (3x) | 100 OSDs (3x) | 320 OSDs (3x) | 630 OSDs (3x) | 630 OSDs (EC62) | |
Co-Located Fio | No | No | No | Yes | Yes |
4MB Read | 63 GiB/s | 214 GiB/s | 635 GiB/s | 1025 GiB/s | 547 GiB/s |
4MB Write | 15 GiB/s | 46 GiB/s | 133 GiB/s | 270 GiB/s | 387 GiB/s |
4KB Rand Read | 1.9M IOPS | 5.8M IOPS | 16.6M IOPS | 25.5M IOPS | 3.4M IOPS |
4KB Rand Write | 248K IOPS | 745K IOPS | 2.4M IOPS | 4.9M IOPS | 936K IOPS |
Inzwischen wurden die Nodes in den Cluster des Kunden integriert. Clyso hat sich dafür entschieden, zunächst nicht alle im Blog beschriebenen Tuningmaßnahmen anzuwenden. Man wolle erst einmal sicherstellen, dass der Cluster unter der bestehenden, meist standardmäßigen Konfiguration zuverlässig arbeitet. Sollte der Kunde auf Leistungsprobleme stoßen, bieten die Daten aus den Testläufen reichlich Input für weitere Optimierungsmaßnahmen.
In der Ausgabe iX 1/2024 beschreibt Joachim Kraftmayer, GrĂĽnder und CEO der Clyso GmbH sowie Ceph Foundation Board Member detailliert, wie man Ceph optimal einsetzt.
(avr)