Informatikerin: "Kausalität ist die nächste Grenze für maschinelles Lernen"

Nach Fortschritten bei der Vertrauenswürdigkeit der Datenverarbeitung will Jeannette Wing auch KI zuverlässiger machen und ihr kausales Denken beibringen.​

In Pocket speichern vorlesen Druckansicht 40 Kommentare lesen
Datennetz

(Bild: everything possible/Shutterstock.com)

Lesezeit: 6 Min.
Von
  • Anil Ananthaswamy

Jeannette Wing hatte nie die Absicht, Informatik zu studieren. Mitte der 1970er Jahre schrieb sie sich am Massachusetts Institute of Technology für Elektrotechnik ein – inspiriert von ihrem Vater, der eine Professur auf diesem Gebiet innehatte. Als Wing ihr Faible für Informatik entdeckte, rief sie ihn an, um zu fragen, ob es sich vielleicht um eine vorübergehende Modeerscheinung handele. Schließlich gab es für dieses Fachgebiet nicht einmal Lehrbücher. Doch ihr Vater versicherte ihr, dass dies nicht der Fall sei. Wing wechselte das Studienfach und blickte nie zurück.

Heute gehört die Forschungsdirektorin der Columbia University in New York, die zuvor Vizepräsidentin bei Microsoft Research war, zu den weltweit führenden Experten für Datenwissenschaft. Ihr Credo: Es ist an der Zeit, uns "auf Daten zu fixieren", um Probleme zu lösen. Bereits 2006 hatte Wing in einem einflussreichen Aufsatz mit dem Titel "Rechnergestütztes Denken" (Computational Thinking) argumentiert, dass dabei vor allem die konzeptionellen Werkzeuge der Informatik helfen könnten.

Jeannette Wing

(Bild: Flickr "An insight, an idea: Jeannette Wing" // World Economic Forum // cc by-sa 2.0)

MIT Technology Review sprach mit Wing über ihr ehrgeiziges Vorhaben, "vertrauenswürdige Künstliche Intelligenz" (KI) zu fördern – eine von jenen zehn Forschungsherausforderungen, die sie bei ihrem Versuch identifiziert hat, KI-Systeme fairer und weniger voreingenommen zu gestalten.

MIT Technology Review: Die Art und Weise, wie Berechnungen durchgeführt werden, verändert sich gerade stark. Was genau passiert da?

Jeannette Wing: Das Mooresche Gesetz hat uns lange getragen. Wir wussten, dass es an seine Grenzen stoßen würde, und so wurde das parallele Rechnen immer wichtiger. Die ganz große Veränderung aber war das Cloud Computing. Die ursprünglichen, verteilten Dateisysteme waren eine Art Baby-Cloud-Computing, bei dem sich die Dateien nicht lokal auf dem eigenen Rechner befanden, sondern irgendwo auf einem Server. Beim Cloud Computing kommt das noch stärker zum Tragen, denn weder die Daten noch die Datenverarbeitung befinden sich in Ihrer Nähe.

Bei der nächsten großen Veränderung wird es um Daten gehen. Wir haben uns lange auf Zyklen konzentriert, um Haupt- und Grafikprozessoren schneller zu machen, und auf mehr parallele Server. Den Datenteil haben wir ignoriert. Jetzt müssen wir uns auf die Daten konzentrieren.

Das fällt in den Bereich der Datenwissenschaft. Wie würden Sie die definieren und was sind die Herausforderungen bei der Datennutzung?

Ich habe da eine sehr prägnante Definition: Datenwissenschaft bedeutet Wertschöpfung aus Daten. Man kann mir nicht einfach einen Haufen Rohdaten geben und ihr Wert erscheint per Knopfdruck. Es beginnt mit dem Sammeln, Verarbeiten, Speichern, Verwalten, Analysieren und Visualisieren der Daten und dem anschließenden Interpretieren der Ergebnisse. Ich nenne das den Lebenszyklus der Daten. Jeder Schritt in diesem Zyklus bedeutet eine Menge Arbeit.

Bei der Verwendung von Big Data tauchen oft Bedenken hinsichtlich Datenschutz, Sicherheit, Fairness und Voreingenommenheit auf. Wie geht man mit diesen Problemen insbesondere bei der KI um?

Ich habe ein neues Forschungsprogramm, das ich vorantreibe. Ich nenne sie vertrauenswürdige KI, inspiriert von den jahrzehntelangen Fortschritten, die wir in der vertrauenswürdigen Datenverarbeitung gemacht haben. Mit Vertrauenswürdigkeit meinen wir in der Regel Sicherheit, Zuverlässigkeit, Verfügbarkeit, Datenschutz und Benutzerfreundlichkeit. In den letzten zwei Jahrzehnten haben wir große Fortschritte gemacht. Wir haben formale Methoden, mit denen die Korrektheit eines Codes gewährleistet werden kann. Wir haben Sicherheitsprotokolle, die die Sicherheit eines bestimmten Systems erhöhen. Und wir haben bestimmte, formalisierte Vorstellungen von Privatsphäre.

Bei der KI aber erhöht Vertrauenswürdigkeit den Einsatz in zweierlei Hinsicht. Plötzlich geht es um Robustheit und Fairness. Robustheit bedeutet, dass bei einer Störung der Eingabe die Ausgabe nicht sehr stark beeinträchtigt wird. Und wir sprechen über Interpretierbarkeit. Das sind Dinge, über die wir bei Computern früher nie gesprochen haben.

Außerdem sind KI-Systeme von Natur aus probabilistisch. Die Computersysteme der Vergangenheit sind im Grunde deterministische Maschinen: Sie sind an oder aus, wahr oder falsch, ja oder nein, 0 oder 1. Die Ergebnisse unserer KI-Systeme sind im Grunde Wahrscheinlichkeiten. Wenn ich Ihnen sage, dass Sie Krebs haben, ist die Wahrscheinlichkeit, dass der kleine weiße Fleck, den ich gesehen habe, bösartig ist, sagen wir 0,75.

Wir müssen jetzt also in dieser Welt der Wahrscheinlichkeiten leben. Aus mathematischer Sicht geht es darum, probabilistische Logik zu verwenden und eine Menge Statistik und stochastisches Denken einzubeziehen. Als Informatiker ist man nicht darauf trainiert, auf diese Weise zu denken. KI-Systeme haben also unser formales Denken über diese Systeme wirklich erschwert.

Vertrauenswürdige KI ist eine der zehn Forschungsherausforderungen, die Sie für Datenwissenschaftler identifiziert haben. Kausalität scheint eine weitere große Herausforderung zu sein.

Kausalität ist meiner Meinung nach die nächste Grenze für KI und maschinelles Lernen. Im Moment sind die Algorithmen und Modelle des maschinellen Lernens gut darin, Muster, Korrelationen und Assoziationen zu finden. Aber sie können uns nicht sagen: Hat das hier jenes da verursacht? Oder was würde passieren, wenn ich dies tue? Daher gibt es in der Informatik einen weiteren Bereich, der sich mit Kausalschlüssen und kausalen Schlussfolgerungen beschäftigt. Die Statistiker beschäftigen sich schon seit Jahrzehnten mit Kausalität. Sie ärgern sich manchmal ein wenig über die Computerwissenschaftler, weil die denken: "Oh, das ist eine brandneue Idee". Daher möchte ich der Statistikgemeinschaft für ihre grundlegenden Beiträge zur Kausalität Anerkennung zollen. Die Kombination von Big Data und kausalen Schlussfolgerungen kann das Feld wirklich voranbringen.

Sind Sie begeistert davon, was die Datenwissenschaft erreichen kann?

Alle sind begeistert von der Datenwissenschaft, weil sie sehen, wie sich ihre Fachgebiete durch die Anwendung datenwissenschaftlicher Methoden auf die digitalen Daten, die sie jetzt erzeugen, produzieren und sammeln, verändern. Es ist eine sehr aufregende Zeit.

(vsz)