Gut gemeint

Darf man Daten, die frei verfügbar sind, für alles mögliche nutzen? Die Frage wird immer dringlicher.

27.03.2019, 06:00 Uhr

Lesezeit: 3 Min.

Von

Dr. Wolfgang Stieler

Früher waren die von IBM die mit den dunklen Anzügen, den schmalen Krawatten und den langen Verträgen mit den vielen Fußnoten. Durch und durch seriöse Geschäftsleute, die REGELN befolgen - von den freigeistigen Hippies aus dem Silicon Valley auch gerne mal als "Unternehmens-Zombies" verspottet. Dann kam die Krise des PCs, Linux und der Wandel zum serviceorientierten Unternehmen. Jetzt ist IBM auf der Seite der Guten, propagiert die Nutzung quelloffener Software, die Verantwortung des Unternehmens für die Gesellschaft und den Nutzen von Technologie für die Schaffung einer besseren Welt.

Verstehen Sie mich richtig: Ich will mich nicht lustig machen über Menschen, die auch noch andere Ziele verfolgen als bloße Gewinnmaximierung. Allerdings ist die Welt manchmal ein bisschen komplizierter als wir uns das wünschen.

Denn eigentlich wollten die IBM-Forscher, die kürzlich einen neuen Datensatz zum Training von Gesichtserkennungs-Software veröffentlichten, nur das beste. Denn der Datensatz enthielt nicht nur einfach eine Million Fotos von Gesichtern inklusive beschreibender Metadaten. Er enthielt eine Million Fotos mit allen möglichen Gesichtern: alte und junge Menschen, Männer und Frauen, weiße, farbige, und asiatische Gesichter sind darauf zu sehen.

Mit solchen Daten trainierte KI-Systeme sollten also gewissermaßen ein komplettes Bild von der Vielfalt menschlicher Gesichter bekommen. Das ist insbesondere dort wichtig, wo solche Systeme Merkmale des Gesichts mit weiteren Features verknüpfen - um beispielsweise eine Risiko-Analyse zu machen. Trainiert man solch ein System beispielsweise überwiegend mit Bildern dunkelhäutiger oder südländisch aussehender Menschen, wird es die Hautfarbe automatisch für ein sicherheitsrelevantes Merkmal halten.

So weit, so schön. Es gibt bei dieser Geschichte nur ein klitzekleines Problem. Die IBM-Forscher hatten die Daten von der einst populären Fotoplattform Flickr abgesaugt, ohne dass die Urheber oder die Fotografierten davon wussten. "Scraping" wird die Methode genannt - "abschaben" von Daten. Laut diesem Bericht von NBC eine gängige Methode und damit das "schmutzige, kleine Geheimnis" unter anderem der Gesichtserkennungs-Industrie.

Illegal ist die Praxis nicht. Die Bilder sind öffentlich verfügbar und unterliegen der CC-Lizenz. Juristisch ist die Sache damit klar. Aber ist es auch in Ordnung? Die abstrakte Frage wird noch ein wenig konkreter, wenn man sich vorstellt, auch das eigene Bild wäre in der Datenbank gelandet. Mein Foto könnte also dazu dienen, eine Gesichtserkennung zu trainieren, die beispielsweise in einer militärischen Drohne eingesetzt wird. Will ich das? Sicher nicht!

Aber diskutiert nicht seit Jahren zumindest ein Teil der Netzöffentlichkeit darüber, dass eigentlich noch viel mehr Daten öffentlich verfügbar gemacht werden müssten? Dass das Potenzial von Big Data und Künstlicher Intelligenz erst dann wirklich zum Wohle aller ausgeschöpft werden kann, wenn die Daten eben nicht mehr in der Hand weniger privater Konzerne sind?

Mir scheint, uns wird erst langsam bewusst, was das heißen könnte.

(wst)