LAION-5B: Forscher entdecken Links zu Kindesmissbrauchsbildern

Stanford-Forscher haben Links zu Missbrauchsbildern von Kindern in dem LAION-5B-Trainingsdatensatz für KI-Bildgeneratoren gefunden.

22

(Bild: metamorworks / Shutterstock.com)

21.12.2023, 07:34 Uhr

Lesezeit: 2 Min.

Von

Oliver Bünte

Der LAION-5B-Datensatz, der zum Trainieren Künstlicher Intelligenzen (KI) zur Erstellung von KI-Bilder verwendet wird, enthielt Links zu Bildern von Kindesmissbrauch. Das haben Wissenschaftler des Internet Observatory of Stanford herausgefunden. Das Trainigsset, das unter anderem von Stablity AI, dem Entwickler von Stable Diffusion verwendet worden war, könnte so für die Erstellung schädlicher Inhalte sorgen.

Konkret enthielt der LAION-5B-Datensatz insgesamt 1679 Links auf Bilder mit illegalem Inhalt. Die Bilder stammen aus Beiträgen von sozialen Medien sowie Websites für Erwachsene, heißt es von den Stanford-Forschenden. Aufgefallen war das bei einer Untersuchung des LAION-Datensatzes im September 2023. Die Erkenntnisse wurden dann an entsprechende Erkennungsplattformen geschickt, darunter PhotoDNA. Zusätzlich ließen die Wissenschaftler die Bilder vom Canadian Centre of Child Protection überprüfen.

Entfernung schwierig

Die vollständige Entfernung der problematischen Inhalte sei laut Stanford-Forscher schwierig. Besonders sie aus den damit trainierten KI-Modellen zu entfernen. KI-Modelle, die mit dem LAION-5B-Datensatz trainiert worden sind, sollten nicht mehr weiterverbreitet werden, lautet deshalb ihre Empfehlung. Betroffen ist etwa Stable Diffusion 1.5. Neuere Versionen sollen mit einem anderen Datensatz trainiert worden sein, sagte Stability AI gegenüber dem US-Tech-Magazin The Verge. Welche das sind, verriet das Unternehmen jedoch nicht.

Unklar ist, wie groß die tatsächlichen Auswirkungen auf die generierten Bilder sind. Die Forscher schließen jedenfalls nicht aus, dass das Modell aus den Bildern mit Kindesmissbrauch etwas gelernt hat.

Die den LAION-5B-Datensatz verwaltende Non-Profit-Organisation LAION sagte, dass es die Datensätze zunächst aus dem Web entfernt, schreibt Bloomberg. Stability AI gab an, dass es interne Richtlinien gegen die Verwendung solcher Fotos habe. LAION-5B sei zwar zum Training verwendet worden, allerdings habe man sich auf einen auf Sicherheit ausgelegten Teil des Datensatzes konzentriert.

Lesen Sie auch

Aus Hund wird Katze: Tool Nightshade "vergiftet" Trainigsdaten von KI-Modellen

(olb)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}