zurück zum Artikel

300 Terabyte Musik und Metadaten von Spotify heruntergeladen

Daniel AJ Sokolov
Ein liegendes Smartphone zeigt Spotify-Logo und -Schriftzug, angesteckt ist ein paar weißer In-Ohr-Kopfhörer

(Bild: norazaminayob/Shutterstock.com)

Spotify ist ungehalten, weil Anna’s Archive einen Teil der Spotify-Datenbank heruntergeladen hat und veröffentlichen möchte. 300 Terabyte.

„We backed up Spotify (medatada and music files)”, meldet das Archiv-Projekt Anna’s Archive. Es hat 86 Millionen Musikstücke heruntergeladen. Das entspricht den Angaben zufolge etwa 37 Prozent aller bei Spotify [1] gehosteten Aufnahmen, aber 99,6 Prozent aller Spotify-Streamingvorgänge. Vielleicht noch wertvoller sind die fast vollständig kopierten Metadaten, von 256 Millionen Aufnahmen und 186 Millionen einzelnen ISR-Codes (International Standard Recording Codes).

Die Datensammlung von insgesamt rund 300 Terabyte wurde im Wesentlichen im Juli beendet. Legal ist sie nicht, denn Zustimmung Spotifys oder der Rechteinhaber gab es keine. Der Streaminganbieter ist entsprechend erbost. Er spricht von einem „Anti-Copyright-Angriff” und gibt an, die für die Zugriffe verwendeten Nutzerkonten deaktiviert zu haben. Neue Sicherheitsmaßnahmen sollen weitere Massendownloads hintanhalten. „Seit dem ersten Tag steht Spotify an der Seite der Künstler-Community im Kampf gegen Piraterie und arbeitet aktiv mit Branchenpartnern zusammen, um Kreative zu schützen und ihre Rechte zu verteidigen", sagte eine PR-Firma im Auftrag Spotifys zu heise online.

Finanziell wird es für die weit überwiegende Mehrheit der Rechteinhaber keinen Unterschied machen, ob sie von Spotify oder von Anna’s Archive keine Tantiemen erhalten. Seit Anfang 2024 schüttet Spotify nichts mehr aus, wenn eine Aufnahme in einem Jahr nicht mindestens 1.000 mal gestreamt wird. Das betrifft laut Anna’s Archive über 70 Prozent aller Musikstücke. Damit gehen insbesondere Nischenkünstler und Neulinge leer aus.

Zusätzlich hat Spotify Maßnahmen gesetzt, um den an Musik-Rechteinhaber ausgeschütteten Anteil des Umsatzes zu reduzieren. Einerseits soll Spotify insgeheim Musik unter Tarnnamen produziert haben, an der es selbst die Rechte hält, und die von Spotifys Algorithmen gerne eingestreut wird.

Andererseits hat das schwedische Unternehmen Hörbücher hinzugefügt und dann eine Vertragsklausel aktiviert, um unter Verweis auf die Hörbücher die Ausschüttungen an die US-Musikverwertungsgesellschaft MLC fast zu halbieren [2]. Ein US-Bundesbezirksgericht hat diesen Tantiementrick als vertragskonform festgestellt [3]. In der Folge konnte Spotify nach 17 Jahren erstmals Nettogewinn [4] melden.

Anna’s Archive möchte die rund 300 Terabyte Daten schrittweise mit dem Torrent-Protokoll online stellen. Den Anfang machen die Metadaten. Sie sind bei Insidern begehrter als die Musik, die man ja bei Streaming-Diensten finden kann.

Eine öffentliche, zentrale Sammlung aller ISRC-Datensätze fehlt hingegen bislang. Selbst der Branchenverband IFPI (International Federation of the Phonographic Industry), der seit 1988 seinen Mitgliedern die Verwendung ISRCs empfiehlt, betreibt kein Verzeichnis. Somit können Forscher keine Marktanalysen machen, Musikliebhaber nur bedingt Einblick nehmen, und die Urheber vieler in Umlauf befindlicher Aufnahmen bleiben im Dunkeln.

Am Nächsten dürfte die private Firma Word Collections kommen, die bei kooperierenden digitalen Musikdiensten Metadaten einsammelt und monatlich aktualisiert. Diese Datenbank ist allerdings nicht öffentlich. Word Collections vertritt Rechteinhaber gegenüber Streamingdiensten unter Ausklammerung von Verwertungsgesellschaften, wodurch Künstler deutlich mehr verdienen sollen. Wie heise online in Erfahrung bringen konnte, hat die jüngste ISRC-Datenbank dieser Firma 240 Millionen unterschiedliche Einträge.

Das ist ein Stück mehr als die 186 Millionen, die sich Anna’s Archive beschafft hat. Allerdings wächst Word Collections Datensammlung seit drei Monaten enorm, weil digitale Musikdienste von Dritten mit KI-generierten Dateien eingedeckt werden. Die Sammlung Annas’ Archives reicht nur bis Juli; die KI-Flut erklärt einen Teil der Differenz. Den anderen Teil erklärt die nicht lückenlose Sammlung der Metadaten von Stücken, die bei Spotify kaum gespielt werden.

Das umstrittene Projekt hat sich bislang auf die Sammlung und Veröffentlichung von Texten konzentriert, wofür ein belgisches Gericht schon eine Websperre verhängt [5] hat. „Unsere Mission (Wissen und Kultur der Menschheit zu bewahren) unterscheidet nicht zwischen Medientypen”, heißt es in der aktuellen Mitteilung. „Manchmal ergibt sich eine Gelegenheit abseits von Text. Dies ist so ein Fall.”

Vor einiger Zeit hätten die Betreiber erkannt, wie man Spotify in großem Umfang scrapen könne. „Wir haben darin eine Rolle für uns erkannt, um ein Archiv aus Musik primär für ihre Erhaltung zu bauen.”

Spotify berechnet selbst für jede Aufnahme einen Popularitätswert von 0 bis 100. Die Höchstnote hat, Stand Juli, nur ein Lied erreicht, eine Gemeinschaftsproduktion von Lady Gaga und Bruno Mars. Es ist bis dahin mehr als drei Milliarden mal von Spotify gestreamt worden. Die damaligen Top 3 des Popularitätsindex’ hätten gemeinsam mehr Streams als die untersten 20 Millionen, vielleicht sogar die untersten 100 Millionen, schätzt Anna’s Archive.

Der Spotify-Katalog unterscheidet sich von Land zu Land. Anna’s Archive hat dazu die Aufnahmen mit Popularitätswerten ab 10 untersucht und festgestellt, dass Spotify Deutschland den größten Katalog anbietet, nämlich rund 11,7 Millionen Stück. Knapp dahinter liegen Curacao und die Schweiz. Auf Platz 4 folgt Österreich, wo aber schon rund 5.000 Aufnahmen fehlen. Schlusslichter sind Puerto Rico (10,5 Millionen) und Weißrussland (10,9 Millionen).

Im Gesamtkatalog hat Anna’s Archive mehr als drei Millionen Aufnahmen gefunden, die länger als zehn Minuten sind. Unter den kürzeren Stücken gibt es besonders viele rund um die Drei-Minuten-Marke, mit extremen Stückzahlen bei exakt 2:00, 3:00 (jeweils über zwei Millionen Stück) und 4:00 Minuten (nicht ganz zwei Millionen) Länge. 13,5 Prozent des Gesamtkatalogs sind laut den Erkenntnissen als nicht jugendfrei („explicit”) markiert.

Die Scraper haben sich auf Musikstücke, denen Spotify einen Popularitätswert von mindestens 1 zugeordnet hat, konzentriert. Diese wurden laut den Angaben zur Gänze heruntergeladen, samt Metadaten. Dann wurden sie um die von Spotify absichtlich hinzugefügten, fehlerhaften Datenpakete erleichtert und mit den im Original separat gespeicherten Metadaten angereichert. Das Ergebnis soll im Format Ogg Vorbis mit 160 kbit/s in Umlauf gebracht werden.

Von Musikstücken mit Popularitätswert 0 hat Anna’s Archive nur einen Teil, der die Hälfte der Streams abdecken soll, und einen größeren Teil der Metadaten. Diese Musik soll stärker komprimiert verbreitet werden. Schließlich sind auch noch Plattencover und technische Dateien angekündigt.

Melden Sie sich zum KI-Update an Melden Sie sich zum KI-Update an [6]

(ds [7])


URL dieses Artikels:
https://www.heise.de/-11123532

Links in diesem Artikel:
[1] https://www.heise.de/thema/Spotify
[2] https://www.heise.de/news/Spotify-Geld-zurueck-fuer-Car-Things-aber-hoehere-Abopreise-9746489.html
[3] https://www.heise.de/news/Spotifys-Tantiemen-Trick-ist-zulaessig-US-Urteil-10264829.html
[4] https://www.heise.de/news/Spotify-schreibt-2024-erstmals-Reingewinn-10271702.html
[5] https://www.heise.de/news/Belgisches-Gericht-ordnet-Sperre-der-Open-Library-des-Internet-Archive-an-10507895.html
[6] https://www.heise.de/newsletter/anmeldung.html?id=ki-update&wt_mc=intern.red.ho.ho_nl_ki.ho.markenbanner.markenbanner
[7] mailto:ds@heise.de