Human Rights Watch: Fotos von Kindern aus Brasilien in KI Trainingsdaten

Im KI-Datenset LAION-5B stecken massenhaft Fotos von brasilianischen Kindern – ohne deren Zustimmung. Das kritisiert Human Rights Watch.

In Pocket speichern vorlesen Druckansicht 13 Kommentare lesen
Ein Foto von Babyfüßen.

Fotos von Neugeborenen und Kindern sind mit Namen, Ort und Datum im Datenset von LAION-5B enthalten.

(Bild: paulaphoto/Shutterstock.com)

Lesezeit: 4 Min.

Ein etwa zweijähriges Kind berührt die Finger ihrer neugeborenen Schwester. Dieses Bild ist im Datenset mit dem Namen LAION-5B enthalten. Zudem die Informationen, wie die beiden Mädchen heißen und in welchem Krankenhaus das Foto aufgenommen wurde. Human Rights Watch hat rund 170 Fotos von Kindern aus Brasilien in dem Datenset gefunden, das unter anderem für das Training von KI-Modellen genutzt wird. Wobei das laut der Organisation nur ein Bruchteil solcher Fotos sein dürfte. Sie kritisieren, dass die Kinder dem nicht zugestimmt haben, und warnen, dass die Bilder missbraucht werden können.

"Kinder sollten nicht fürchten müssen, dass ihre Fotos geklaut und gegen sie verwendet werden können", sagt Hye Jung Han, Anwalt für Kinderrechte bei Human Rights Watch. Er fordert in einem Blogbeitrag Regierungen dazu auf, schnellstmöglich Gesetze zu erlassen, um die Daten von Kindern vor KI-Missbrauch zu schützen.

LAION-5B ist nur eines von zahlreichen angebotenen Datensets, die für das KI-Training genutzt werden. Dafür werden Inhalte aus dem Internet gescraped, also gesammelt und bearbeitet. So werden beispielsweise unerwünschte und strafbare Inhalte von günstigen Arbeitskräften heraussortiert und gekennzeichnet. Inwieweit die Verarbeitung einer Einwilligung bedarf, ist weltweit unterschiedlich geregelt beziehungsweise noch unklar. Zum einen gibt es die Frage nach dem Urheberrecht an den Daten, zum anderen geht es um den Datenschutz und die Verarbeitung persönlicher Daten.

Human Rights Watch hat nur 0,0001 Prozent der 5,85 Milliarden Bilder analysiert, die in LAION-5B samt Bildunterschriften enthalten sind. Gefunden haben sie auch Bilder von Geburten, Geburtstagen oder Kindern, die in Unterwäsche tanzen. Viele dieser Fotos, schreiben die Aktivisten, seien ursprünglich nur für einen kleinen Kreis an Menschen sichtbar. Sie seien nicht über eine Suchmaschine zu finden gewesen. Manche Bilder seien vor vielen Jahren hochgeladen worden, Jahre bevor es LAION-5B und die Sorge vor KI-Anwendungen überhaupt gegeben hat. KI-Modelle, die mit den Fotos trainiert worden sind, können eins zu eins oder auch ähnlich wieder ausgegeben werden.

LAION ist ein deutscher Non-Profit-Verein. Sie haben angekündigt, alle bekannt gewordenen Inhalte aus den Datensets zu löschen. Außerdem erklärt der Verein laut Humans Right Watch, dass Kinder und ihre Erziehungsberechtigten dafür verantwortlich seien, persönliche Fotos von Kindern aus dem Internet zu entfernen – das sei der wirksamste Schutz gegen Missbrauch.

Zahlreiche Webseitenbetreiber versuchen inzwischen, Crawler von ihren Seiten auszuschließen, um ihre Inhalte zu schützen. Meta aber beispielsweise, sammelt selbst Bilder und Beiträge, um diese für das Training der eigenen KI-Modelle zu nutzen. Die Erlaubnis dazu holen sie gerade mit einem Hinweis zur Änderung der Datenschutzerklärung ein. Verbraucher- und Datenschützer kritisieren das Vorgehen und fordern einen Stopp.

Auch Google sagt, es nutze alle verfügbaren Inhalte aus dem Internet. OpenAI schweigt zumeist, wenn es um die Herkunft der Trainingsdaten geht. Allerdings hat CTO Mira Murati gesagt, in die Video-KI Sora seien alle frei verfügbaren Daten geflossen, auch von den Meta-Plattformen, also Facebook und Instagram. Bei Youtube war sie sich nicht so sicher, sagte sie zumindest. Google legte Beschwerde ein, sollte OpenAI Videos der Plattform genutzt haben, verstößt das gegen die Nutzungsbedingungen. Um weiterhin Artikel nutzen zu können, hat OpenAI einige Verträge mit Verlagen abgeschlossen. Die New York Times klagt prominent, OpenAI habe ihre urheberrechtlich geschützten Artikel ohne Erlaubnis genutzt.

(emw)