Kernel-Log – Was 3.1 bringt (2): Storage und Dateisysteme

Der Software-RAID-Code erhält ein Bad-Block-Management für fehlerhafte Sektoren; Dm-Crypt kann SSDs nun über frei gewordene Speicherbereiche informieren; iSCSI-Target-Framework LIO aufgebohrt; Ext3-Dateisystem als Default jetzt langsamer, aber robuster.

16

06.09.2011, 16:11 Uhr

Lesezeit: 15 Min.

c't Magazin

Von

Thorsten Leemhuis

Am Montagmorgen hat Linus Torvalds die fünfte Vorabversion von Linux 3.1 veröffentlicht. Diese Version erhält man derzeit nur via Github, da die Kernel.org-Infrastruktur nach dem Einbruch nur eingeschränkt arbeitet. Torvalds erwähnt in der Freigabe-Mail, es gäbe von der Entwicklungsfront nicht Spannendes zu berichten; dafür dürften aber auch die Wirrungen nach dem Einbruch bei Kernel.org mitverantwortlich sein, da sie den Patch-Fluss beeinträchtigen.

Das Kernel-Log nimmt die fortschreitende Entwicklung von Linux 3.1 zum Anlass, die Mini-Serie "Was 3.1 bringt" mit der Beschreibung der Neuerungen rund um Storage-Code und Dateisysteme fortzusetzen. Den Anfang dieser Artikel-Reihe hat eine Übersicht der Änderungen an Netzwerk-Treibern und -Infrastruktur gemacht; in den kommenden Wochen werden Artikel zur Architektur-Code, Infrastruktur und Treibern für andere Hardware folgen.

Dateisysteme

Genau wie das Ext4-Dateisystem nutzt in Zukunft auch Ext3 standardmäßig Schreibbarrieren – das wirkt sich negativ auf die Geschwindigkeit aus, steigert aber die Robustheit bei Abstürzen. Das Ext4-Dateisystem merkt sich bei Linux 3.1, welche ungenutzten Speicherbereiche es an den verwendenden Datenträger gemeldet hat, wenn es dazu durch Fstrim aufgefordert wurde. Bei einem späteren Aufruf von Fstrim braucht es dann nur noch die zwischenzeitlich freigegeben Bereiche zu melden, was das für SSDs und Speicherlösungen mit Thin Provisioning interessante Batched Discard beschleunigt.

Änderungen an den Locking-Mechanismen von Btrfs sollen die Geschwindigkeit des experimentellen Dateisystems erheblich steigern, wenn bei den Arbeitsanforderungen Leseoperationen überwiegen. Davon abgesehen gab es diesmal keine erwähnenswerten Änderungen an Btrfs, weil sich kurz vor dem Einsenden der Änderungen für Linux 3.1 Probleme gezeigt hatten, denen der leitende Btrfs-Entwickler erst nachspüren wollte.

Die Kernel-Entwickler haben das bei Linux 2.6.39 aufgenommene Pstore ("Platform Persistent Storage") ausgebaut, um Daten zur Analyse von Abstürzen in den von UEFI genutzten nichtflüchtigen Speicherbereichen sichern zu können (1, 2); einige Hintergründe dazu erläutert EFI-Spezialist Matthew Garrett in einem Blog-Eintrag.

iSCSI-Target

Torvalds nahm einen 660 KByte großen Patch auf, der das bei 2.6.38 integrierte iSCSI-Target-Framework LIO (linux-iscsi.org) auf den Stand der LIO-Version 4.1 hebt (1, 2). Der bringt unter anderem Unterstützung für die Authentifizierung per CHAP mit. Dem SCSI-Subsystem-Betreuer gefällt dieser Ansatz nicht; er wollte diese Aufgabe lieber an ein Userspace-Programm delegieren. Torvalds merkte daraufhin einige Nachteile von Userspace-Lösungen an und entlockte dem SCSI-Maintainer weitere Argumente gegen die Kernel-Integration. Die überzeugten den Linux-Vater aber offensichtlich nicht, da er die LIO-4.1-Patches wenig später in den Hauptentwicklungszweig integrierte.

Software-RAID, DM, Staccato

Software-RAID und Device Mapper

Der für Software-RAID zuständige Kernel-Code bietet nun Bad-Block-Management bei RAIDs der Level 1, 4, 5 und 6, um defekte Plattensektoren der für den Verbund genutzten Datenträger zu erkennen und zu meiden (u. a. 1, 2, 3). Diese Funktion arbeitetet nicht mit MD-Arrays, die Version 0.90 der MD-Metadaten verwenden. Ferner ist die noch in Entwicklung befindlichen Version 3.3 des Userland-Werkzeugs Mdadm erforderlich; einige Hinweise dazu liefert MD-Maintainer Neil Brown in einer Mail und beim Patch-Review für Linux 3.1.

Das bei der Verschlüsselung von Laufwerken genutzte Dm-Crypt kann ab 3.1 Discard-Kommandos an das darunter liegende Medium weiterleiten. Das ist etwa für SSDs interessant, damit diese per ATA Trim von frei gewordenen Bereichen erfahren, was Geschwindigkeit und Lebensdauer steigert. Diese Funktion ist allerdings aus Sicherheitsgründen deaktiviert, damit Angreifer keine Rückschlüsse aus dem Grad der Datenträgerbelegung ziehen können. Der Device Mapper kann nun auch auf die RAID-1-Funktionen des MD-Codes zurückgreifen und unterstützt das Speichern der Metadaten auf einen eigenen Datenträger – solche "Metadata Devices" sollen Fehlerbehandlung und Integritätsprüfung verbessern.

Staccato

Dateisysteme

Der HFS-Plus-Code unterstützt jetzt Datenträger mit mehr als 2 TByte Speicherkapazität.
Wie Windows-Versionen mit NT-Unterbau kann Linux ab 3.1 bis zu vier Gigabyte große Dateien auf FAT16-Laufwerken abspeichern, sofern diese 64 KByte große Cluster nutzen.
Über die neuen Funktionen SEEK_HOLE und SEEK_DATA des Virtual File System Layer (VFS) lassen sich größere Speicherbereiche in Dateien finden, die lediglich Nullen enthalten.
Ecryptfs unterstützt jetzt "Encrypted Keys".
Der Code für Parallel NFS (pnfs) beherrscht nun IPv6.

Storage

Über das neue Device /dev/loop-control können die neuesten Versionen von Losetup dynamisch Loop-Devices erzeugen oder entfernen; das bislang übliche Vorgeben einer bestimmten Zahl von Loop-Devices über Kernel/Modul-Parameter kann daher entfallen.
Der Treiber Bfa unterstützt nun den Brocade-1860 Fabric Adapter.
Im Artikel "Avoiding the OS abstraction trap" erläutert Intel-Entwickler Dan J. Williams auf LWN.net einige der Schwierigkeiten, mit denen er und seine Kollegen bei der Arbeit am Isci-Treiber für den SAS-Controller in Intels Server- und Workstation-Chipsatz C600 zu kämpfen hatten. Dieser Treiber stieß bei Linux 3.0 zum Kernel, nachdem ihn die Intel-Entwickler erheblich umgebaut hatten. Das war nötig geworden, weil Teile des Treibers ursprünglich betriebssystemunabhängig konzipiert worden waren, er sich dadurch aber nicht sonderlich gut in Linux einfügte – erfahrene SCSI-Entwickler hatten die Aufnahme daher anfangs abgelehnt.

Die kleinen Perlen: Dateisysteme

Viele kleinere, aber keineswegs unbedeutende Neuerungen finden sich in der folgenden Liste mit den englischen Commit-Überschriften der jeweiligen Änderung. Die Einträge verlinken genau wie viele der Verweise im vorangegangenen Text auf das Webfrontend des von Linus Torvalds gepflegten Git-Zweigs mit den offiziellen Kernel-Quellen auf Kernel.org. Der über diese Links angezeigten Commit-Kommentar und der darunter ausgegebene Patch liefern zahlreiche weitere Informationen zur jeweiligen Änderungen.

Vor jedem Link finden sich in eckigen Klammern einige Buchstaben und Zahlen. Ein "C" kennzeichnet Patches mit Änderungen an Kconfig-Dateien, welche die Konfigurationsoptionen samt der zugehörigen Hilfetexte enthalten, die bei der Kernel-Konfiguration über "make menuconfig" oder "make xconfig" angezeigt werden. Ein "D" steht bei Patches, die die Dokumentation verändern, die im Kernel-Zweig unterhalb von Documentation/ liegt. Ein "N" weist Änderungen aus, die eine neue Datei anlegen. Die Zahl vermittelt einen groben Eindruck zur Größe des Patches: eine "1" kennzeichnet Änderungen, die inklusive Kommentar zwischen 10 und 20 KByte groß sind, eine "2" für solche, die zwischen 20 und 30 KByte Umfang haben; Änderungen ohne Zahl sind kleiner als 10 KByte, Patches mit einer "9" hingegen 90 KByte oder größer.

[ ] Btrfs: load the key from the dir item in readdir into a fake dentry
[ ] dlm: show addresses in configfs
[ 2] dlm: use workqueue for callbacks
[ 3] exofs: ios: Move to a per inode components & device-table
[ N4] exofs: Rename raid engine from exofs/ios.c => ore
[ N3] ext3: Add fixed tracepoints
[ D ] ext3/ext4 Documentation: remove bh/nobh since it has been deprecated
[ ] ext4: Add new ext4 trim tracepoints
[ ] ext4: add tracepoint for ext4_journal_start
[ ] ext4: make the preallocation size be a multiple of stripe size
[ D 6] fs: push i_mutex and filemap_write_and_wait down into ->fsync() handlers
[ D 3] fs: take the ACL checks to common code
[ N1] jbd: Add fixed tracepoints
[ D 1] locks: rename lock-manager ops
[ D ] nfsd4: update nfsv4.1 implementation notes
[CD 4] nfsd: Remove deprecated nfsctl system call and related code.
[ 1] NFS: Parse and store all multipath DS addresses
[C ] ore: Make ore its own module
[ D ] ->permission() sanitizing: document API changes
[ D 1] ->permission() sanitizing: don't pass flags to ->check_acl()
[ D 2] ->permission() sanitizing: don't pass flags to ->permission()
[C N1] pnfsblock: add blocklayout Kconfig option, Makefile, and stubs
[ ] pstore: Extend API for more flexibility in new backends
[ D ] Squashfs: Update documentation for XZ and add squashfs-tools devel tree
[ D ] superblock: add filesystem shrinker operations
[ N1] superblock: introduce per-sb cache shrinker infrastructure
[C ] tmpfs: expand "help" to explain value of TMPFS_POSIX_ACL
[ D ] UBIFS: lessen amount of debugging check types
[ D 1] UBIFS: switch self-check knobs to debugfs
[ D ] vfs: increase shrinker batch size
[ ] vfs: optimize inode cache access patterns
[ ] vfs: show O_CLOEXE bit properly in /proc/<pid>/fdinfo/<fd> files
[ ] xfs: improve sync behaviour in the face of aggressive dirtying
[ ] xfs: optimize the negative xattr caching

Kleine Perlen: Storage

Die kleinen Perlen: Storage

Block Core

[ ] blktrace: add FLUSH/FUA support
[C N1] block: add bsg helper library
[ ] block: fix flush machinery for stacking drivers with differring flush flags
[ D ] block: strict rq_affinity
[ ] CFQ: add think time check for group
[ ] CFQ: add think time check for service tree
[ D ] cfq-iosched: Add documentation about idling

Device Mapper

[ D ] dm flakey: add corrupt_bio_byte feature
[ D ] dm flakey: add drop_writes
[ D ] dm raid: add region_size parameter
[ D ] dm raid: add write_mostly parameter
[ D ] dm raid: improve table parameters documentation
[ ] dm snapshot: skip reading origin when overwriting complete chunk
[ ] dm table: set flush capability based on underlying devices

MD

MFD/MMC

[C N2] mfd: Add AAT2870 mfd driver
[ ] mfd: Add devices for WM831x clocking module
[ ] mfd: Add tps65921 support from twl-core
[ ] mfd: Add tunnelcreek watchdog to lpc_sch devices
[ ] mfd: Add WM831x clock control register definitions
[ 1] mfd: Support multiple active WM831x AUXADC conversions
[C N2] mfd: tps65912: Add new mfd device
[C N3] mfd: twl6040: Add initial support
[ 1] mmc: block: improve error recovery from command channel errors
[ DN ] mmc: documentation of mmc non-blocking request usage and design.
[C ] mmc: kconfig: remove EXPERIMENTAL from the DMA selection of atmel-mci
[C 1] mmc: sdhci: change sdhci-pltfm into a module
[ DN ] mmc: sdhci-esdhc-imx: add device tree probe support

SCSI

Various

[ ] ahci: Enable SB600 64bit DMA on Asus M3A
[ ] ahci: RAID-mode SATA patch for Intel Panther Point DeviceIDs
[C N ] ata: Add iMX pata support
[ 1] IB/qib: Defer HCA error events to tasklet
[ ] iscsi-target: Implement iSCSI target IPv6 address printing.
[ 9] target: Core cleanups from AGrover (round 1)
[C 9] target: Follow up core updates from AGrover and HCH (round 4)
[ ] target: Implement Block Device Characteristics VPD page
[ 4] target: Make all control CDBs scatter-gather
[ 9] target: More core cleanups from AGrover (round 2)
[ 9] target: Updates from AGrover and HCH (round 3)

Weitere Hintergründe und Informationen rund um Entwicklungen im Linux-Kernel und dessen Umfeld finden sich in den vorangegangenen Kernel-Logs auf heise open. Neue Ausgaben des Kernel-Logs werden auf den Identi.ca- und Twitter-Konten "@kernellog" erwähnt; die englischen, bei den Kollegen von "The H" erscheinenden Übersetzungen auf den Identi.ca- und Twitter-Konten "@kernellog2". Gelegentlich zwitschert der Autor des Kernel-Logs unabhängig davon über einige Kernel-Log-Themen bei Identi.ca und Twitter als "@kernellogauthor". (thl).