Alert!

Analyse zur KI-Ethik: Algorithmen – kein Schutzschild für menschliches Versagen

Künstliche Intelligenz und maschinelles Lernen bestimmen unser Leben immer mehr. Entwickler sollten sich nicht auf ihren Code zurückziehen, sagen zwei Experten.

8

(Bild: Franki Chamaki / Unsplash)

16.03.2021, 10:00 Uhr

Lesezeit: 9 Min.

MIT Technology Review

Von

Rumman Chowdhury
Kristian Lum

Analyse zur KI-Ethik: Algorithmen – kein Schutzschild für menschliches Versagen

Wer ein elektronisches System, das Entscheidungen treffen soll, als "Algorithmus" bezeichnet, versucht damit häufig, von der Verantwortung menschlicher Entscheidungen abzulenken. Denn “Algorithmus” ist für viele ein Begriff, der auf objektiven und empirisch belegten Daten beruht. Er legt auch eine hochkomplexe Technik nahe – vielleicht so komplex, dass ein Mensch Schwierigkeiten damit hätte, die inneren Vorgänge zu begreifen oder bei der Verwendung das Verhalten zu antizipieren. Doch trifft diese Beschreibung zu? Nicht immer.

Videos by heise

Im letzten Dezember wurde beispielsweise im Stanford Medical Center die fehlerhafte Zuweisung von Corona-Impfstoffen mit einem „Verteilungsalgorithmus“ entschuldigt, der leitende Angestellte gegenüber Ärzten an vordererster Front priorisiert hatte. Das Krankenhaus gab an, sich von Ethikern beraten haben zu lassen, um einen „sehr komplexen“ Algorithmus zu entwickeln, von dem ein Sprecher hinterher sagte, dass er „offensichtlich nicht richtig funktionierte“, wie die US-Ausgabe von Technology Review berichtete.

Während viele Menschen das so interpretierten, dass eine Form maschineller künstlicher Intelligenz involviert war, handelte es sich bei dem System tatsächlich um einen medizinischen Algorithmus. Und die funktionieren anders: Sie ähneln mehr einer sehr einfachen Formel oder einem Entscheidungsbaum, der von Menschen in einem Komitee beschlossen wird. Dass sich viele darunter etwas anderes vorgestellt hätten, verdeutlicht eine wachsende Problematik. Mit der zunehmenden Verbreitung von Vorhersagemodellen gibt es öffentliche Bedenken, gerade bei sensiblen Entscheidungsfindungen. Doch während Gesetzesgeber schon beginnen, Standards für die Bewertung und Überprüfung von Algorithmen zu entwickeln, muss zunächst einmal bestimmt werden, in welchen Bereichen derartige entscheidungstragenden oder – unterstützenden Anwendungen genutzt werden sollen. Wird der „Algorithmus“-Begriff nicht klar definiert, könnten gerade besonders einflussreiche Modelle außerhalb der Reichweite einiger Bestimmungen liegen, die eigentlich dafür entwickelt werden, Menschen zu schützen.

Algorithmen identifizieren

Handelt es sich bei Stanfords „Algorithmus“ wirklich um einen solchen? Kommt drauf an, wie man den Begriff definiert. Zwar gibt es keine universell geltende Definition, doch eine häufige stammt aus einem 1971 vom Computerwissenschaftler Harold Stone verfassten Lehrbuch, in dem es heißt: „Ein Algorithmus ist ein Set von Regeln, das eine Sequenz von Anwendungen genau definiert.“ Blöd nur: Diese Definition schließt alles ein, von Rezept bis komplexes neuronales Netzwerk. Eine darauf basierende Prüfrichtlinie wäre lächerlich weit gefasst.

In der Statistik und beim maschinellen Lernen werden Algorithmen normalerweise als ein Set von Anweisungen verstanden, die ein Computer ausführt, um von Daten zu lernen. In diesen Bereichen wird die daraus resultierende, strukturierte Information typischerweise ein Modell genannt. Diese Information, die ein Computer mittels Daten über einen Algorithmus lernt, kann zur Gewichtung beitragen, mit der jeder eingegebene Faktor multipliziert werden muss – es könnte aber noch sehr viel komplizierter werden. Auch die Komplexität von Algorithmen selbst kann variieren. Welchen Einfluss diese haben, hängt letztlich mit den Daten zusammen, auf die sie angewendet werden und dem Kontext, in dem das Modell letztlich zum Einsatz kommt. Der gleiche Algorithmus könnte in einem Kontext einen positiven Einfluss haben und in einem anderen einen sehr abweichenden Effekt erzielen.

In anderen Bereichen wird bereits das, was hier Modell genannt wurde, als Algorithmus bezeichnet. Obwohl das verwirrend ist, entspricht das der breitesten Definition: Modelle sind Regeln (die von einem Trainingsalgorithmus erlernt und nicht direkt von einem Menschen eingegeben werden), die eine Sequenz von Anwendungen definieren. Beispielsweise wurde im letzten Jahr in britischen Medien ein System als “Algorithmus“ beschrieben, das es nicht schaffte, Studierenden, die aufgrund von COVID-19 nicht zum Examen erscheinen konnten, gerechte Ergebnisse zuzuweisen. Was aber diskutiert wurde, war natürlich das Modell – also das Set an Anweisungen, das Inputs (die bisherigen Leistungen von Studierenden oder die Bewertung eines Lehrers) in Outputs (Ergebnisse) übersetzte.

Was nun in Stanford passiert zu sein schien, ist, dass Menschen – einschließlich Ethiker – sich hingesetzt und beschlossen haben, welche Reihe an Anwendungen das System nutzen sollte, um auf Basis der Inputs (wie beispielsweise Alter und Abteilung eines Mitarbeiters) zu bestimmen, ob diese Person zu den ersten zählen sollte, die eine Impfung erhalten. Soweit bekannt basierte diese Abfolge nicht auf einem Schätzverfahren, das für quantitative Ziele optimiert war. Es handelte sich um ein Set normativer Entscheidungen, die vorgaben, wie Impfungen priorisiert werden sollten, formalisiert in der Sprache eines Algorithmus. In der medizinischen Terminologie und gemäß einer breit gefassten Definition erfüllt dieser Ansatz den Anspruch an einen „Algorithmus“ – auch dann, wenn die einzig involvierte Intelligenz eine menschliche war.

Gesetze auf dem Weg

Auch Politiker befassen sich damit, was denn nun ein Algorithmus ist. Im US-Kongress wurde 2019 der “Algorithmic Accountability Act” eingeführt, der die Bezeichnung “automatisiertes entscheidungstreffendes System” wählt und dies als einen “computergesteuerten Prozess” definiert. Gemeint sind solche, die sich “von maschinellem Lernen, Statistik, und anderen Datenverarbeitungs- oder KI-Techniken ableiten, die eine Entscheidung treffen oder die menschliche Entscheidungsfindung mit Auswirkung auf Konsumenten erleichtert.“

Ganz ähnlich zieht New York City nun INT 1894 in Betracht, ein Gesetz, das die obligatorische Überprüfung von „automatisierter Entscheidungstechnik am Arbeitsplatz“ einführen würde. Definiert wird diese als „jedwedes System, dessen Funktion von statistischer Theorie geleitet wird oder Systeme, dessen Parameter von solchen Systemen bestimmt werden.“ Es ist auffällig, dass beide Gesetzesentwürfe zwar Überprüfungen anordnen, aber nur hochrangige Richtlinien zur Verfügung stellen, wie eine solche Prüfung aussehen würde.

Während Entscheidungsträger sowohl in der Regierung als auch der Wirtschaft Standards für algorithmische Überprüfung setzen, wird es wahrscheinlich Auseinandersetzungen darüber geben, was alles als Algorithmus zählt. Anstatt den Versuch zu unternehmen, eine gemeinsame Definition oder eine bestimmte, universelle Überprüfungstechnik zu finden, könnte eine Lösung vielmehr darin bestehen, automatisierte Evaluationssysteme zu entwickeln, die sich hauptsächlich auf die Auswirkungen solcher Anwendungen fokussiert. Indem man sich mehr auf das Ergebnis als auf den Input konzentriert, können unnötige Debatten über technische Komplexität vermieden werden. Denn was zählt, ist das Schadenspotential, unabhängig davon, ob es sich nun um eine algebraische Formel handelt oder um ein Deep Neural Network.

Am Ende zählt die Wirkung

Kritische Prüfungen, die sich an den Auswirkungen orientieren, sind auch in anderen Bereichen verbreitet. Beispielsweise finden sie sich im klassischen DREAD-Framework (Damage, Reproducibility, Exploitability, Affected Users, Discoverability) der Cybersicherheit, welches erstmalig mit Microsoft in den frühen Nullerjahren populär wurde und in einigen Unternehmen immer noch angewendet wird. Das „A“ in DREAD fordert Prüfer auf, die „betroffenen Nutzer“ zu quantifizieren, indem es danach fragt, wie viele Personen unter der Auswirkung einer identifizierten Schwachstelle leiden würden. Diese Folgenabschätzungen sind auch bei Menschenrechts- und Nachhaltigkeitsuntersuchungen weit verbreitet. Einige frühere Entwicklungen von KI haben an dieser Stelle ähnliche Rubriken erstellt. In Kanada gibt es beispielsweise eine algorithmische Folgeabschätzung, die auf Fragen basiert wie „Gibt es Kunden in diesem Wirtschaftszweig, die besonders angreifbar sind? (ja oder nein)”.

Sicherlich gibt es Schwierigkeiten, wenn man einen derart ungeklärten Begriff wie „Auswirkung“ in einer Untersuchung führen will. Das DREAD-Framework wurde später erweitert oder eher ersetzt von STRIDE, das die Bewertung ändert. Da war es teilweise schwierig, unterschiedliche Überzeugungen zusammenzubringen, was die Modellierung von Bedrohungen beinhaltet. Microsoft stellte die Nutzung von DREAD im Jahr 2008 ein.

Keine Konsequenzen

Im KI-Bereich wurden auf Konferenzen und in Fachzeitschriften bereits Folgeabschätzungssysteme vorgestellt – mit unterschiedlichem Erfolg und einigen Kontroversen. Fehlerfrei sind sie nämlich noch lang nicht: Folgeabschätzungen, die rein formelhaft sind, können leicht durchgeführt werden, doch andere, die auf allzu vagen Definitionen gründen, können zu willkürlichen oder unglaublich langwährenden Untersuchungen führen.

Trotzdem handelt es sich um einen wichtigen Fortschritt. Der Begriff „Algorithmus“, wie auch immer man ihn definieren will, darf nicht zu einem Schutzschild werden, mit dem Menschen ihrer Verantwortung entbunden werden, für die Konsequenzen der von ihnen entwickelten und eingesetzten Systeme einzustehen. Daher wird der Ruf nach einer Art algorithmischer Rechenschaftspflicht immer lauter – die konzeptuelle Beschäftigung mit Auswirkungen bietet einen nützlichen gemeinsamen Nenner, damit verschiedene Systeme dieser Forderung unabhängig von ihrer Funktionsweise beikommen können.

Kristian Lum ist Assistant Professor im Fachbereich Computerwissenschaften und Informationstechnik an der University of Pennsylvania.

Rumman Chowdhury ist Direktorin im Team für Machine Ethics, Transparency, and Accountability (META) bei Twitter. Sie war zuvor CEO und Gründerin von Parity, einer Plattform zur Überprüfung der Wirkungsweise von Algorithmen. Außerdem war sie internationale Leiterin des Bereichs für den verantwortungsvollen Einsatz von KI bei Accenture.

(bsc)