Fairness und Künstliche Intelligenz: Warum Metriken nicht ausreichen

Klassisches Software-Testing lässt sich nicht ohne Weiteres auf KI übertragen. Model Governance und interne Audits sind nötig, um Fairness zu gewährleisten.

In Pocket speichern vorlesen Druckansicht 62 Kommentare lesen
Artificial,Intelligence,Abstract,Face,Created,By,Neural,Network,Machine,Learning

(Bild: shuttersv/Shutterstock.com)

Lesezeit: 21 Min.
Von
  • Isabel Bär
Inhaltsverzeichnis

Der Einsatz von Künstlicher Intelligenz (KI) bringt Verantwortung mit sich. Transparenz, Erklärbarkeit, Fairness sind dabei wesentliche Prinzipien, die ebenso gewährleistet sein müssen wie die hohe Leistungsfähigkeit des KI-Systems. Um diese Anforderungen einzuhalten, liegt es nahe, sich an Bereichen mit einer Tradition überprüfbarer Prozesse zu orientieren. Zwar funktionieren diese Prozesse nicht fehlerlos, aber ohne sie lassen sich Sicherheitsstandards nicht verwirklichen. Am offensichtlichsten ist das in sicherheitskritischen und regulierten Branchen wie der Medizin, aber auch in der Luft- und Raumfahrt oder im Finanzwesen.

Young Professionals schreiben für Young Professionals

Dieser Beitrag ist Teil einer Artikelserie, zu der die Heise-Redaktion junge Entwickler:innen einlädt – um über aktuelle Trends, Entwicklungen und persönliche Erfahrungen zu informieren. Bist du selbst ein "Young Professional" und willst einen (ersten) Artikel schreiben? Schicke deinen Vorschlag gern an die Redaktion: developer@heise.de. Wir stehen dir beim Schreiben zur Seite.

Ähnlich wie diese Bereiche Prozesse benötigen, um relevanten Anforderungen nachzukommen, benötigt ein Unternehmen, das KI-Systeme einsetzt, geregelte Abläufe, durch die es Zugriff auf Machine-Learning-Modelle (ML) kontrolliert, Richtlinien sowie gesetzliche Vorgaben umsetzt, die Interaktionen mit den Modellen und deren Ergebnissen verfolgt sowie festhält, auf welcher Grundlage ein Modell erzeugt wurde. Insgesamt werden diese Prozesse als Model Governance bezeichnet. Model-Governance-Prozesse sind von Beginn an in jede Phase des ML-Lebenszyklus zu implementieren (Design, Development und Operations). Zur konkreten technischen Integration von Model Governance in den ML-Lebenszyklus hat die Verfasserin sich andernorts ausführlicher geäußert.

Model Governance ist nicht optional (siehe Kasten "Checkliste Model Governance"). Zum einen gibt es bereits bestehende Regularien, die Unternehmen in bestimmten Branchen erfüllen müssen. Am Beispiel des Finanzsektors lässt sich die Bedeutung von Model Governance gut illustrieren: Kreditvergabesysteme oder Zinsrisiko- und Preisbildungsmodelle für Derivate sind risikoreich und verlangen ein hohes Maß an Kontrolle und Transparenz. Laut einer Algorithmia-Studie zu den wichtigsten Trends im KI-Einsatz für 2021 ist die Mehrzahl der Unternehmen an die Erfüllung rechtlicher Auflagen gebunden – 67 Prozent der Befragten müssen mehreren Vorschriften entsprechen. Lediglich 8 Prozent gaben an, keinen gesetzlichen Vorgaben zu unterliegen.

Der Umfang der Regularien dürfte künftig weiter zunehmen: so veröffentlichte die EU im April 2021 eine Verordnung als ersten Rechtsrahmen für KI, die bestehende Regularien ergänzen würde. Der Entwurf teilt KI-Systeme in vier unterschiedliche Risikokategorien ein ("unzulässig", "hoch", "begrenzt", "minimal"). Die Risikokategorie definiert dabei Art und Umfang der Anforderungen, die an das jeweilige KI-System gestellt werden. KI-Software, die in die hohe Risikokategorie fällt, muss die strengsten Auflagen erfüllen.

Checkliste Model Governance

Der Einsatz von Machine Learning bringt Verantwortung und Verpflichtungen mit sich. Um diesen Anforderungen nachzukommen, benötigt ein Unternehmen Prozesse, durch die es

  • die Zugriffe auf ML-Modelle kontrolliert
  • Richtlinien/gesetzliche Vorgaben umsetzt
  • die Interaktionen mit den ML-Modellen und deren Ergebnisse verfolgt
  • festhält, auf welcher Grundlage ein Modell erzeugt wurde

Model Governance bezeichnet diese Prozesse in ihrer Gesamtheit

Checkliste:

  • Vollständige Modelldokumentation oder Berichte. Dazu gehört auch das Reporting der Metriken durch geeignete Visualisierungstechniken und Dashboards
  • Versionierung aller Modelle zur Herstellung von Transparenz nach außen (Erklär- und Reproduzierbarkeit)
  • Vollständige Datendokumentation zur Gewährleistung hoher Datenqualität und Einhaltung des Datenschutzes
  • Management von ML-Metadaten
  • Validierung von ML-Modellen (Audits)
  • Laufendes Überwachen und Protokollieren von Modellmetriken

Dazu zählen folgende Aspekte: Robustheit, Sicherheit, Genauigkeit (Accuracy), Dokumentation und Protokollierung sowie angemessene Risikobewertung und Risikominderung. Weitere Anforderungen sind die hohe Qualität der Trainingsdaten, Diskriminierungsfreiheit, Nachvollziehbarkeit, Transparenz, menschliche Überwachung sowie die Erforderlichkeit einer Konformitätsprüfung und der Nachweis der Konformität mit der KI-Verordnung durch eine CE-Kennzeichnung (siehe Kasten "Plan it Legal"). Beispiele für die ML-Systeme dieser Kategorie sind private und öffentliche Dienstleistungen (wie die Bonitätsprüfung) oder Systeme, die in der Schul- oder Berufsausbildung eingesetzt werden, um über den Zugang zu Bildung und den beruflichen Werdegang einer Person zu entscheiden (beispielsweise bei der automatisierten Bewertung von Prüfungen).

Plan it Legal: KI-Verordnung und Konformität

(Bild: Marian Weyo/Shutterstock.com)

Die Konformität von HRKI mit der KI-Verordnung wird die Voraussetzung für die Vermarktung in der EU werden. Sie lässt sich über eine CE-Kennzeichnung nachweisen. Die EU wird zudem Standards verabschieden, bei deren Einhaltung die Konformität mit der Verordnung anzunehmen ist.

Für die umfassenden Tests, die nach der KI-Verordnung anfallen, sollen die zuständigen Behörden „Sandboxing Schemes“ entwickeln, also Vorgaben für sichere Testumgebungen. Die Konformitätsprüfung für KI beruht auf einer ex-ante-Sicht, hat aber gleichwohl Ähnlichkeiten mit der Datenschutzfolgenabschätzung nach der DSGVO. Mehr Informationen hierzu finden sich im Blogeintrag von Dr. Benhard Freund bei planit.legal: "Das KI-Gesetz der EU – Entwurf und Diskussionsstand".

Da die Verordnung nicht nur für in der EU ansässige Unternehmen und Einzelpersonen gelten soll, sondern für jedes Unternehmen, das KI-Dienste innerhalb der EU anbietet, hätte das Gesetz einen ähnlichen Anwendungsbereich wie die DSGVO. Die Verordnung muss sowohl vom EU-Parlament gebilligt werden als auch die Gesetzgebungsverfahren der einzelnen Mitgliedsstaaten passieren. Wenn das EU-Parlament die Verordnung billigt und sie die legislativen Prozesse der EU-Staaten passiert, tritt das Gesetz frühestens 2024 in Kraft. Dann müssen Hochrisikosysteme während der Entwicklung eine Konformitätsbewertung für KI-Auflagen durchlaufen, um das KI-System in einer EU-Datenbank registrieren zu lassen. Im letzten Schritt ist eine Konformitätserklärung notwendig, sodass KI-Systeme die notwendige CE-Kennzeichnung erhalten, damit ihre Anbieter sie in den Verkehr bringen können.

Wichtig ist außerdem, dass Regulierung nicht der einzig ausschlaggebende Aspekt für Model-Governance-Prozesse ist. Denn auch Modelle, die in schwächer regulierten Kontexten im Einsatz sind, kommen an Model Governance nicht vorbei. Neben der Erfüllung gesetzlicher Vorgaben müssen Unternehmen wirtschaftliche Einbußen und Reputationsverluste ebenso abwenden wie juristische Schwierigkeiten. ML-Modelle, die einer Marketing-Abteilung Informationen über die Zielgruppe liefern, können im Betrieb an Präzision verlieren und eine falsche Informationsgrundlage für wichtige Folgeentscheidungen bereitstellen. Somit stellen sie ein finanzielles Risiko dar. Model Governance wird also nicht nur zur Erfüllung rechtlicher Vorgaben, sondern auch zur Qualitätssicherung von ML-Systemen und zur Minderung unternehmerischer Risiken benötigt.

Die sich abzeichnenden EU-Vorgaben, bestehende Regelungen und Unternehmensrisiken machen es notwendig, Model-Governance-Prozesse von Beginn an zu implementieren. Die Bedeutung von Model Governance ergibt sich für viele Unternehmen allerdings oft erst dann, wenn ML-Modelle in die Produktion gehen und in Einklang mit gesetzlichen Regelungen stehen sollen. Dazu kommt, dass der abstrakte Charakter rechtlicher Vorgaben Unternehmen vor die Herausforderung der praktischen Umsetzung stellt: So geben nach der bereits zitierten Algorithmia-Studie 56 Prozent der Befragten die Implementierung von Model Governance als eine der größten Herausforderungen an, um ML-Anwendungen langfristig erfolgreich in Produktion zu bringen. Dazu passen auch die Zahlen der "State of AI in 2021"-Studie mit Blick auf die Risiken Künstlicher Intelligenz: 50 Prozent der befragten Unternehmen geben die Einhaltung gesetzlicher Vorschriften als Risikofaktor an, andere hoben Mängel bei Erklärbarkeit (44 Prozent der Befragten), Reputation (37 Prozent), Gerechtigkeit und Fairness (30 Prozent) als relevante Risikofaktoren hervor.

Ein wichtiger Bestandteil von Model Governance sind Audits als Werkzeuge, um zu prüfen, ob KI-Systeme den Unternehmensrichtlinien, Branchenstandards oder Vorschriften entsprechen. Dabei gibt es interne und externe Audits. Die im Artikel "Ethik und Künstliche Intelligenz: ein neuer Umgang mit KI-Systemen" auf Heise von der Verfasserin besprochene Studie Gender Shades ist ein Beispiel für einen externen Auditprozess: Sie prüfte Gesichtserkennungssysteme großer Anbieter hinsichtlich ihrer Genauigkeit bezüglich des Geschlechtes und der Ethnie und konnte dabei eine abweichende Präzision des Modells je nach Ethnie und Geschlecht feststellen.

Dieser Blick von außen ist aber limitiert, da externe Prüfprozesse nur Zugang zu Modellergebnissen, aber nicht zu den zugrundeliegenden Trainingsdaten oder Modellversionen besitzen. Das sind wertvolle Quellen, die Unternehmen in einem internen Auditprozess einbeziehen müssen. Diese Prozesse sollen eine kritische Reflexion über die potenziellen Auswirkungen eines Systems ermöglichen. Zunächst sind jedoch an dieser Stelle Grundlagen über KI-Systeme zu klären.

Um KI-Software prüfen zu können, ist es wichtig zu verstehen, wie Machine Learning funktioniert: Maschinelles Lernen besteht aus einer Reihe von Methoden, die Computer verwenden, um Vorhersagen oder Verhaltensweisen auf der Grundlage von Daten zu treffen und zu verbessern. Um diese Vorhersagemodelle aufzubauen, müssen ML-Modelle eine Funktion finden, die zu einer bestimmten Eingabe eine Ausgabe (Label) erzeugt. Dafür benötigt das Modell Trainingsdaten, die zu den Eingabedaten die jeweils passende Ausgabe enthalten. Dieses Lernen trägt die Bezeichnung "überwachtes Lernen". Im Trainingsprozess sucht das Modell mithilfe mathematischer Optimierungsverfahren eine Funktion, die den unbekannten Zusammenhang zwischen Ein- und Ausgabe so gut wie möglich abbildet.

Ein Beispiel für eine Klassifizierung wäre eine Sentimentanalyse, die untersuchen soll, ob Tweets positive oder negative Stimmungen (Sentiments) enthalten. In diesem Fall wäre ein Input ein einzelner Tweet, und das dazugehörige Label das codierte Sentiment, das für diesen Tweet festgelegt wurde (−1 für ein negatives, 1 für ein positives Sentiment). Im Trainingsprozess lernt der Algorithmus mit diesen annotierten Trainingsdaten, wie Eingabedaten mit dem Label zusammenhängen. Nach dem Training kann der Algorithmus dann neue Tweets selbstständig einer Klasse zuordnen.

Somit lernt ein ML-Modell die Entscheidungslogik im Trainingsprozess, statt die Logik mit einer Abfolge von typischen Wenn-Dann-Regeln explizit im Code zu definieren, wie es in der Softwareentwicklung typisch wäre. Dieser grundlegende Unterschied zwischen traditioneller und KI-Software führt dazu, dass sich Methoden des klassischen Softwaretestens nicht direkt auf KI-Systeme übertragen lassen. Das Testen verkompliziert sich dadurch, dass zusätzlich zum Code die Daten und das Modell selbst hinzukommen, wobei alle drei Komponenten sich gemäß dem Change-Anything/Change-Everything-Prinzip gegenseitig bedingen (hierzu mehr unter "Hidden Technical Debt in Machine Learning Systems").

Unterscheiden sich beispielsweise die Daten im produktiven System von den Daten, mit denen ein Modell trainiert wurde (Distribution Shifts), kommt es zum Leistungsabfall des Modells (Model Decay). In diesem Fall muss ein Modell schnell mit frischen Trainingsdaten trainiert und re-deployed werden. Erschwerend kommt hinzu, dass das Testen von KI-Software ein noch offenes Forschungsfeld ohne Konsens und ohne Best Practices ist.