Künstliche Intelligenz: Trotz Datenmassen blind

Mit neuartigen Algorithmen versuchen Forscher, die soziale Entwicklung von Kindern vorherzusagen. Auch mit Informationen aus 15 Jahren scheiterte dies.

29

(Bild: SHARON MCCUTCHEON / UNSPLASH)

14.04.2020, 06:00 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Karen Hao

Politischen Entscheidungsträger stützen sich häufig auf die Arbeit von Sozialwissenschaftlern, um vorherzusagen, wie sich bestimmte politische Maßnahmen auf gesellschaftliche Entwicklungen auswirken können. Das gilt etwa für die Beschäftigungs-, aber auch für die Kriminalitätsrate. Die Idee dahinter ist stets: Wer die verschiedenen Faktoren, die den Lebensweg eines Menschen beeinflussen, begreift, kann Interventionen vorschlagen, um die bestmögliche Entwicklung zu fördern – zumindest hofft man dies.

Seit einiger Zeit wird dafür zunehmend auf maschinelles Lernen vertraut, das verspricht, durch die Verarbeitung großer Datenmengen sehr viel genauere Vorhersagen zu treffen, als dies ein Mensch könnte. Derartige Modelle werden inzwischen beispielsweise in den Vereinigten Staaten dazu verwendet, um die Wahrscheinlichkeit abzuschätzen, mit der ein Verurteilter erneut zum Kriminellen wird – oder ob ein Kind zu Hause dem Risiko von Missbrauch und Vernachlässigung ausgesetzt wäre. Es wird dabei stets angenommen, dass ein Algorithmus, der mit genügend Daten über eine bestimmte Situation gespeist wird, genauere Vorhersagen erlaubt als der Mensch oder eine einfache, statistische Analyse.

Videos by heise

Eine neue Studie, die in den "Proceedings der National Academy of Sciences" veröffentlicht wurde, wirft nun allerdings Zweifel daran auf, wie effektiv dieser Ansatz wirklich ist. Drei Soziologen der Princeton University haben dazu Hunderte von Forschern gebeten, sechs Lebensentwicklungen für Kinder, deren Eltern und ganze Haushalte vorherzusagen. Zur Verfügung standen ihnen fast 13.000 Datensätze zu 4000 Familien. Keiner der Forscher erreichte auch nur annähernd eine überzeugende Treffgenauigkeit – und zwar unabhängig davon, ob dafür mit einfachen Statistiken oder modernstem maschinellen Lernen gearbeitet wurde.

KI und ML können nicht zaubern

"Die Studie unterstreicht die Auffassung, dass maschinelles Lernen nicht zaubern kann", kommentiert Alice Xiang, Leiterin des Bereichs Fairness- und Verantwortlichkeitsforschung bei der gemeinnützigen Gruppe "Partnership on AI", die sich für eine ethische Verwendung die Künstliche Intelligenz einsetzt.

Die Forscher verwendeten im Rahmen der Studie Daten aus einer fünfzehnjährigen, soziologischen Untersuchung namens "Fragile Families and Child Wellbeing Study" unter der Leitung von Sara McLanahan, Professorin für Soziologie an der Princeton University und eine der Hauptautorinnen der Veröffentlichung. In der ursprünglichen Studie wurde versucht, herauszufinden, wie sich das Leben von Kindern unverheirateter Eltern im Laufe der Zeit entwickelt. Die Familien wurden zufällig ausgewählt – basierend auf Kindern, die im Jahr 2000 in Krankenhäusern der großen US-Städte geboren wurden. Danach wurde ihre Entwicklung dann im Alter von 1, 3, 5, 9 und 15 Jahren aufgezeichnet.

McLanahan und ihre Kollegen Matthew Salganik und Ian Lundberg forderten dann verschiedene Forscher dazu auf, für diese Kinder Vorhersagen über sechs Entwicklungen für die letzte Phase zu treffen, welche sie für soziologisch wichtig hielten. Dazu gehörten der Notendurchschnitt der Kinder in der Schule; ihr Beharrlichkeitsniveau im schulischen Alltag sowie der Armutsgrad in ihrem Haushalt. Die teilnehmenden Wissenschaftler verschiedener Universitäten erhielten dabei nur einen Teil der Daten, um ihre Algorithmen zu trainieren, während die Organisatoren einige weitere für die finale Bewertung zurückhielten. Innerhalb von fünf Monaten reichten Hunderte von Forschern, darunter Informatiker, Statistiker und Computersoziologen, ihre besten Vorhersagetechniken ein.

Alle Verfahren scheiterten

Die Tatsache, dass keine Einreichung mit hoher Treffsicherheit voraussagen konnte, wie ein Leben sich entwickeln würde, bestätigte die Schlussfolgerung von McLanahan & Co., dass Künstliche Intelligenz im soziologischen Kontext noch signifikante Schwächen hat. "Man kann es nicht einfach damit erklären, dass ein bestimmter Forscher oder eine bestimmte, maschinelle Lern- oder KI-Technik versagt hätte", sagt Salganik, Professor für Soziologie. Denn: Die komplexesten Techniken des maschinellen Lernens waren auch nicht viel genauer als weitaus einfachere Methoden.

Für Experten, die den Einsatz von KI in der Gesellschaft untersuchen, sind die Ergebnisse allerdings nicht allzu überraschend. Selbst die genauesten Risikobewertungsalgorithmen in der Strafjustiz lägen beispielsweise bei maximal 60 bis 70 Prozent Genauigkeit, sagt Xiang von der "Partnership on AI". "Das klingt vielleicht in der Zusammenfassung gut", fügt sie hinzu, aber die Rückfallquote von Straftätern könne sowieso unter 40% liegen. Selbst wenn also gar kein Rückfall vorhergesagt wird, erhielte man bereits eine Genauigkeitsrate von mehr als 60 Prozent. Da kann man auch würfeln.

Ebenso hat die bisherige Forschung wiederholt gezeigt, dass einfache, erklärbare Algorithmen in Situationen, in denen sie ein Risiko bewerten – oder wählen sollen, wohin Ressourcen geleitet werden sollen – häufig nahezu dieselbe Vorhersagekraft haben wie Black-Box-Techniken wie Deep Learning, bei denen der Rechner sich selbst die Algorithmen schafft, die Menschen nicht mehr durchblicken. Und Deep Learning ist signifikant teurer.

Ist das überhaupt vorhersagbar?

Das heißt nicht unbedingt, dass vorhersagende Algorithmen, ob sie nun auf maschinellem Lernen basieren oder nicht, in der Politik niemals nützliche Werkzeuge sein könnten. Einige Forscher weisen beispielsweise darauf hin, dass sich die für soziologische Forschungszwecke gesammelten Daten von denen unterscheiden, die typischerweise in der Politik analysiert werden.

Rashida Richardson, Policy Director am "AI Now"-Institut, das Auswirkungen von KI auf die Gesellschaft untersucht, äußert auch Bedenken dazu, wie Probleme in der Vorhersagekraft überhaupt dargestellt werden. Ob ein Kind zum Beispiel "Grit" aufweise, sei ein inhärent subjektives Urteil, das Teile der Forschung schon als "rassistisches Konstrukt zur Messung von Erfolg und Leistung" bezeichnet haben. Schon diese Beobachtung lässt sie an der Sinnhaftigkeit solcher Techniken zweifeln.

Salganik sieht ebenfalls grundsätzliche Gefahren. Allerdings ist es seiner Ansicht nach wichtig, politischen Entscheidungsträgern Werkzeuge in die Hand zu geben, mit denen sie die Genauigkeit algorithmischer Verfahren auf transparente Weise bewerten können. "Große Datenmengen und ein komplexes maschinelles Lernen garantieren keine genauen Vorhersagen", fügt er hinzu. "Politiker, die nicht so viel Erfahrung mit maschinellem Lernen haben, haben möglicherweise unrealistische Vorstellungen."

(bsc)