RE-LAION-5B: Bilddatenbank ohne Missbrauchsbilder

In einem Datensatz für KI-Bildgeneratoren, LAION-5B, waren Missbrauchsbilder von Kindern gefunden worden. Jetzt wurde eine bereinigte Version veröffentlicht.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen

(Bild: Bild von heise online mit Midjourney generiert)

Lesezeit: 1 Min.
Von

Die Organisation LAION hat den Datensatz RE-LAION-5B bereitgestellt, eine überarbeitete Version ihres Datensatzes LAION-5B. Dabei handelt es sich um eine Sammlung von 5.5 Milliarden öffentlich zugänglicher Bilder, die zum Beispiel für das Training von KI-Modellen verwendet wird.

Die Bilddatenbanken enthalten nicht die Bilder selbst, sondern unter anderem einen Hashwert der Bilddatei sowie die URL, unter der LAION das Bild im Netz gefunden hat. Das Stanford Internet Observatory hat Ende 2023 darin 1673 Hinweise auf Bilder mit Kindesmissbrauch entdeckt. LAION hat daraufhin seinen Datensatz sofort vom Netz genommen und Nutzer aufgefordert, es nicht mehr einzusetzen und weitere Kopien zu löschen.

LAION hat dann gemeinsam mit den Stanford-Forschern sowie anderen Kindesschutzorganisationen seine Datenbank nach Verweisen auf illegale Inhalt durchsucht. Insgesamt habe man 2236 einschlägige Links entdeckt und entfernt. Die so entstandene Datenbank RE-LAION-5B steht ab sofort jedermann unter einer Apache-2.0-Linzenz zur Nutzung bereit. Auf der Homepage der Organisation finden sich weitere Details zu der Datenbank.

Parallel zur Bereinigung hat LAION ein Filtersystem entwickelt. Das soll es zukünftig erschweren, dass illegale Inhalte in die Datenbank aufgenommen werden. Ein ausführliches Porträt von LAION finden Sie in der c’t 6/24.

(jo)