Zuverlässige KI: Absicherung künstlicher neuronaler Netze
Seite 3: Transparenz durch Erklärbarkeit
Schließlich gilt es, für zuverlässige KI die Erklärbarkeit des Verfahrens deutlich zu verbessern. Neuronale Netze sind meist sogenannte Black-Box-Modelle. Auch für Expertinnen und Experten ist es oft schwer bis unmöglich nachzuvollziehen, warum ein bestimmtes Ergebnis zustande gekommen ist.
Das stellt Unternehmen unter anderem mit Blick auf die 2018 eingefĂĽhrte Datenschutzgrundverordnung vor Herausforderungen, da Personen nun das Recht haben, die HintergrĂĽnde ĂĽber eine automatisch getroffene Entscheidung zu erfahren. Das GefĂĽhl, die KI fĂĽhre eine Art Eigenleben, senkt zudem die Nutzerakzeptanz.
Ein prominentes Beispiel ist ein neuronales Netz, das Bilder von Hunden und Wölfen unterscheiden sollte [7]. Es entschied fast immer richtig, aber eine fehlerhafte Entscheidung zeigte, welches Kriterium es tatsächlich zur Klassifizierung genutzt hatte: Es waren nicht etwa Merkmale der Tiere, sondern zufälligerweise waren die Wölfe immer auf Bildern zu sehen, in denen im Hintergrund Schnee lag – nur bei dem falsch klassifizierten Bild nicht.
Das Beispiel offenbart, dass viele KI-Systeme intransparent, nicht intuitiv und für Menschen schwer zu verstehen sind. Die Unfähigkeit der Systeme, die Entscheidungen und Aktionen erklären zu können, schränkt die Vorteile und die Wirksamkeit Künstlicher Intelligenz ein. Erklärbare KI ist sowohl aus rechtlichen Gründen als auch für das Vertrauen der Nutzerinnen und Nutzer unerlässlich [8]. In kritischen Anwendungen, bei denen es womöglich um Menschenleben geht wie in der Medizin und beim autonomen Fahren, ist es besonders riskant, wenn die KI nicht erklärbar ist.
Lokale und globale Erklärbarkeit
Erklärbarkeit lässt sich auf zwei Ebenen erzielen. Die lokale oder Datenerklärbarkeit zeigt, weshalb eine konkrete Eingabe zu einer bestimmten Ausgabe geführt hat. Ein typischer Anwendungsfall ist die automatisierte Kreditvergabe: Wer einen beantragten Kredit nicht erhält, hat ein Recht darauf, die Gründe für die Ablehnung zu erfahren.
Die globale beziehungsweise Modellerklärbarkeit ist komplexer und zeigt, wie ein bestimmtes Modell als Ganzes funktioniert. Hierbei trainiert man zunächst das neuronale Netz (als Black-Box-Modell) wie üblich und erzeugt anschließend daraus ein Stellvertretermodell, das auch Surrogat oder White-Box-Modell genannt wird. Es bildet das Black-Box-Modell nach und trifft weitgehend die gleichen Vorhersagen. Aus ihm lässt sich eine Erklärung generieren.
Dabei ist zu beachten, dass das White-Box-Modell einfacher aufgebaut ist, um Erklärbarkeit zu ermöglichen. Dadurch kann es zu Abweichungen zwischen den Ausgaben beider Modelle kommen. Beliebte White-Box-Modelle sind Entscheidungsbäume, regelbasierte Modelle oder lineare Modelle.
Heat Maps als Helfer
Gemeinsam mit der Firma IDS, einem Hersteller industriell genutzter Kameras, entstand in einem Projekt des KI-Fortschrittszentrums ein Demonstrator, der aufzeigt, wie sich die Erklärbarkeit bei der Bildverarbeitung verbessern lässt. Beispielsweise kann es "voreingenommene" neuronale Netze geben: Sie ordnen Bilder aufgrund von Kriterien einer Objektklasse zu, die nur zufällig auf den Bildern vorhanden sind und kein Kriterium sein sollten (siehe Abbildung 4). Heat Maps oder Aufmerksamkeitskarten helfen, die Entscheidung eines neuronalen Netzes zu verstehen und Fehler in seinen Aktionen zu erkennen [9]. Sie gehören zu den lokalen Erklärbarkeitsverfahren.
Ein Demonstrator, in dem sich ein kleiner Delta-Roboter bewegt, verdeutlicht die Nützlichkeit von Heat Maps für die Erklärbarkeit. Erkennt das System eine Hand in seiner Nähe, sollte der Roboter aus Sicherheitsgründen stoppen. Befindet sich nur die Hand im Bild, funktioniert das Erkennen wie gewünscht. Legt man jedoch ein kleines Objekt wie eine Münze in das Bild, agiert der Roboter weiter, wenn die Hand ins Bild kommt. Das neuronale Netz richtet seine gesamte Aufmerksamkeit auf die Münze und übersieht damit die Hand (siehe Abbildung 5). Da die Heat Map bei der fehlerhaften Aktion die Münze als Entscheidungskriterium markiert, lässt sich die Fehlerquelle identifizieren und das Netz korrigieren.