300 Terabyte Musik und Metadaten von Spotify heruntergeladen

Seite 2: Anna’s Archive

Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Das umstrittene Projekt hat sich bislang auf die Sammlung und Veröffentlichung von Texten konzentriert, wofür ein belgisches Gericht schon eine Websperre verhängt hat. „Unsere Mission (Wissen und Kultur der Menschheit zu bewahren) unterscheidet nicht zwischen Medientypen”, heißt es in der aktuellen Mitteilung. „Manchmal ergibt sich eine Gelegenheit abseits von Text. Dies ist so ein Fall.”

Vor einiger Zeit hätten die Betreiber erkannt, wie man Spotify in großem Umfang scrapen könne. „Wir haben darin eine Rolle für uns erkannt, um ein Archiv aus Musik primär für ihre Erhaltung zu bauen.”

Spotify berechnet selbst für jede Aufnahme einen Popularitätswert von 0 bis 100. Die Höchstnote hat, Stand Juli, nur ein Lied erreicht, eine Gemeinschaftsproduktion von Lady Gaga und Bruno Mars. Es ist bis dahin mehr als drei Milliarden mal von Spotify gestreamt worden. Die damaligen Top 3 des Popularitätsindex’ hätten gemeinsam mehr Streams als die untersten 20 Millionen, vielleicht sogar die untersten 100 Millionen, schätzt Anna’s Archive.

Der Spotify-Katalog unterscheidet sich von Land zu Land. Anna’s Archive hat dazu die Aufnahmen mit Popularitätswerten ab 10 untersucht und festgestellt, dass Spotify Deutschland den größten Katalog anbietet, nämlich rund 11,7 Millionen Stück. Knapp dahinter liegen Curacao und die Schweiz. Auf Platz 4 folgt Österreich, wo aber schon rund 5.000 Aufnahmen fehlen. Schlusslichter sind Puerto Rico (10,5 Millionen) und Weißrussland (10,9 Millionen).

Videos by heise

Im Gesamtkatalog hat Anna’s Archive mehr als drei Millionen Aufnahmen gefunden, die länger als zehn Minuten sind. Unter den kürzeren Stücken gibt es besonders viele rund um die Drei-Minuten-Marke, mit extremen Stückzahlen bei exakt 2:00, 3:00 (jeweils über zwei Millionen Stück) und 4:00 Minuten (nicht ganz zwei Millionen) Länge. 13,5 Prozent des Gesamtkatalogs sind laut den Erkenntnissen als nicht jugendfrei („explicit”) markiert.

Die Scraper haben sich auf Musikstücke, denen Spotify einen Popularitätswert von mindestens 1 zugeordnet hat, konzentriert. Diese wurden laut den Angaben zur Gänze heruntergeladen, samt Metadaten. Dann wurden sie um die von Spotify absichtlich hinzugefügten, fehlerhaften Datenpakete erleichtert und mit den im Original separat gespeicherten Metadaten angereichert. Das Ergebnis soll im Format Ogg Vorbis mit 160 kbit/s in Umlauf gebracht werden.

Von Musikstücken mit Popularitätswert 0 hat Anna’s Archive nur einen Teil, der die Hälfte der Streams abdecken soll, und einen größeren Teil der Metadaten. Diese Musik soll stärker komprimiert verbreitet werden. Schließlich sind auch noch Plattencover und technische Dateien angekündigt.

(ds)