LinkedIn-Datenleck: Täter blähen Datenhalde mit konstruierten Einträgen auf

Im digitalen Untergrund haben Kriminelle Daten aus einem angeblichen LinkedIn-Leck angeboten. Diese entpuppen sich als künstlich aufgebläht.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Abstraktes Bild zu Netzwerken

(Bild: Sergey Nivens/Shutterstock.com)

Lesezeit: 4 Min.
Von

Troy Hunt, Betreiber des Have-I-Been-Pwned-Dienstes (HIBP), hat neue Daten aus einem angeblichen LinkedIn-Datenleck zu dem Angebot hinzugefügt. Angeblich seien fast 20 Millionen Konten kompromittiert. Hunts Analyse zeigt jedoch, dass die Daten teils alt und zu einem Großteil gefälscht und konstruiert sind.

In dem Eintrag auf HIBP zu dem neuen Datensatz erklärt Hunt, dass das Datenleck angeblich am 4. November auftrat und die Daten am Dienstag zum Datenfundus hinzugefügt wurden. Insgesamt seien rund 19,8 Millionen Konten betroffen – nach einer Aktualisierung vom Mittwoch, am Dienstag waren es noch rund 5,8 Millionen LinkedIn-Accounts. Die Daten umfassen E-Mail-Adressen, Geschlecht, geografischer Ort, Job-Bezeichnungen, Namen, berufliche Fähigkeiten und Social-Media-Profile.

In einem Blog-Beitrag erläutert Hunt, wie er die Daten analysiert hat. Die Daten stammen demnach nicht aus einem Einbruch bei LinkedIn, sondern wurden mittels sogenanntem Scraping gewonnen: Die Daten sind öffentlich auf den LinkedIn-Profilen einsehbar und lassen sich etwa mit Bots und Skripten einfach auslesen und extrahieren. Scraping ist noch immer eine häufig genutzte Methode, um an Nutzerdaten zu gelangen. Auch die 2,6 Millionen Datensätze von Duolingo, die HIBP im August der Datenhalde hinzugefügt hat, wurden durch eine unzureichend geschützte API mittels Scraping ausgelesen.

Der angebliche LinkedIn-Datensatz umfasste am Dienstag 2,5 Millionen Einträge, die sich als Kombination aus öffentlich verfügbaren LinkedIn-Profildaten sowie 5,8 Millionen E-Mail-Adressen entpuppten, die lediglich aus der Kombination aus den Vor- und Nachnamen generiert wurden.

Troy Hunt erläutert an einem Beispiel-Datensatz, wie er auf die Ungereimtheiten stieß. Beim Überfliegen der Datensätze fiel ihm ins Auge, dass ein Profil fünf weitere E-Mail-Adressen als Aliase in der Form "Vorname.Nachname@domain" enthielt. Das war bei zahlreichen Profilen der Fall, wodurch sich die 2,5 Millionen Konten auf 5,8 Millionen ausweiteten. Die LinkedIn-ID aus dem Datensatz war echt, dadurch öffnete sich das betroffene Profil. Der Datensatz enthält zudem Spalten mit den Namen "PROFILE_FETCHED_AT" sowie "PROFILE_LINKEDIN_FETCHED_AT", die im konkreten Fall auf das Jahr 2020 datierten.

Bei einem Datensatz aus vielen wäre dies nicht weiter bemerkenswert, das Muster zeigte sich jedoch bei allen Datensätzen, die mehrere E-Mail-Adressen aufwiesen. Die E-Mail-Adressen hatten stets denselben Alias bei unterschiedlichen Domains. Als Gegenbeispiel nennt Hunt E-Mail-Adressen etwa beim Mail-Anbieter Pluralsight, die nicht mit einem Punkt, sondern mit einem Bindestrich erstellt werden, also dem Schema "Vorname-Nachname@Pluralsight" folgen. Diese waren in dem Datenfundus aber falsch zusammengesetzt, mit einem Punkt. Andere E-Mail-Adressen wären bei der jeweiligen Domain korrekt zusammengesetzt aus dem ersten Buchstaben des Vornamens und direkt angeschlossenem Nachnamen. Diese E-Mail-Adressen sind demnach konstruiert und gefälscht. Jede E-Mail-Adresse in den Datensätzen war zusammengesetzt aus der tatsächlichen Domain der angegebenen Arbeitgeber mit dem zusammengesetzten Mail-Alias aus Vorname und Nachname.

Die Kopfzeilen der Datensätze umfassen neben LinkedIn noch weitere Einträge, die etwa auf Salesforce, Spendesk und Hubspot deuten. Es handelt sich daher vermutlich um eine Sammlung aus mehreren Quellen als um Daten aus einem Scraping-Lauf bei LinkedIn. Am Ende bleibe jedoch, dass die Profile echt seien, die Arbeitgeber-Unternehmen und Domains ebenfalls und auch die E-Mail-Adressen in vielen Fällen valide, erläutert Hunt. Daher hat er die Daten zur HIBP-Datenhalde hinzugefügt.

Unklar bleibt, mit welchem Ziel die Cyberkriminellen den Datensatz derart aufgebläht haben. Hunt geht davon aus, dass es möglicherweise um Profite gehe. Allerdings war der Datenfundus frei herunterladbar. Möglicherweise geht es einfach um Ruhm.

Hunt weist zudem darauf hin, dass es eine Diskussion darum gibt, ob per Scraping erlangte Daten als Datenleck gelten sollen. Immerhin stehen die Daten zugreifbar im Netz. Allerdings setzt er auf die Definition, dass ein Datenleck dann auftrete, wenn Informationen von Unbefugten auf eine Art und Weise erlangt wurden, wie sie nicht gedacht waren, zugänglich gemacht zu werden. Das trifft also immer dann zu, wenn Daten vom eigentlich vorgesehenen Angebot abgezogen und gesammelt werden.

(dmk)