Künstliche Intelligenz – zwischen Hype und Realität
Menschen können sich bis zu 8000 verschiedene Gesichter merken und unterscheiden, weit mehr als jede KI-Software. Das überrascht, wenn man sich die Erfolgsmeldungen zur Künstlichen Intelligenz vor Augen führt. Was steckt also hinter dem Hype, und was ist Realität?
- Marcel Tilly
Künstliche Intelligenz ist nicht neu, vor allem aber zurzeit sehr populär. Das liegt an mehreren entscheidenden Faktoren, und zwar den riesigen Mengen gut qualifizierter Daten, die es ermöglichen, die technischen Ansätze aus dem Deep Learning zu verwenden, um entsprechende Modelle zur Sprach- oder Bilderkennung zu berechnen. Dann die Rechenkapazitäten in großen Cloud-Rechenzentren und die Hardwareunterstützung durch GPUs, die eine effektive Berechnung endlich erlauben. Die Erfolgsmeldungen zu KI und Deep Learning reißen hier nicht ab:
- 2016 wird bei der ImageNet Challenge das ResNet-Modell vorgestellt, das Elemente auf Bildern genauso gut erkennen kann wie der Mensch. Das nennt man Human-parity. Der Computer oder das Modell hat die gleiche Fehlerrate wie ein Mensch: ~4 Prozent.
- 2017 wird Human-parity bei der Spracherkennung erreicht. Der Computer kann gesprochene Sprache mit der gleichen Word-Error-Rate (WER) verstehen wie ein Mensch.
- 2018 liest ein Computer beim SQuAD Reading Test genauso gut wie ein Mensch.
- 2018 wird im Bereich Übersetzung Human-parity erreicht. Das System kann einen Text von einer Sprache in eine andere so gut wie ein Dolmetscher übersetzen.
Das sind alles Erfolge, von denen wiederum großartige Dinge wie autonome Autos, menschenähnliche Bots oder Systeme, die Go spielen können, profitieren können. Einfach gesagt, scheint es so, als könne man mit KI einfach jede Problemstellung lösen. KI beschränkt sich dabei nicht nur auf Computer Vision (Bildverarbeitung) oder Natural Language Processing (Sprachverarbeitung), sondern umfasst auch Themen wie Robotik und Lernen. Häufig ist das technische Mittel dahinter Deep Learning: Der Hammer, für den nun jedes Problem wie ein Nagel aussieht.
Sonderheft iX Developer – Machine Learning
Mehr Artikel zu Machine und Deep Learning sowie zur Künstlichen Inteligenz sind im Sonderheft "iX Developer – Verstehen, verwenden, verifizieren" zu finden, das unter anderem im heise Shop erhältlich ist.
Deep Learning benutzt Deep Neural Networks, um Modelle zu erlernen, die sich dann auf Probleme anwenden lassen. Diese sind meistens sehr fokussiert, zum Beispiel Gesichtserkennung, Gefühlserkennung, Objekterkennung und Spracherkennung. Deshalb spricht man bei diesen KI-Systemen auch von Narrow KI oder "Schwacher KI". Sie sind meistens in der Lage, eine speziell erlernte Aufgabe recht zuverlässig zu erledigen. Die KI profitiert davon, dass sie in der Lage ist, von vielen Daten zu lernen und Informationen schnell zu verarbeiten. Dabei sollte man nicht dem Trugschluss erliegen, dass das System wirklich intelligent ist.
Ein Elefant, ein Elefant
In einer Studie [1] fanden Computerwissenschaftler heraus, dass Systeme künstlicher Intelligenz einen Sehtest nicht bestanden, den ein Kind mit Leichtigkeit absolvieren konnte. In ihr präsentierten die Forscher ein Computer-Vision-System mit einer Wohnzimmerszene. Es ist in der Lage, die Objekte richtig zu identifizieren: Es hat einen Stuhl, eine Person und Bücher in einem Regal richtig erkannt. Dann wird ein anomales Objekt in die Szene eingeführt: das Bild eines Elefanten. Die bloße Anwesenheit des Elefanten verwirrt das System. Es fängt an, einen Stuhl als Couch und den Elefanten als Stuhl zu erkennen. Andere Objekte hingegen werden gar nicht mehr erkannt.
Das ist ein interessantes Verhalten. Ein Mensch nimmt die Szene mit dem Elefanten als Ganzes wahr und ist in der Lage, die Anwesenheit des Elefanten in dem Zimmer als "falsch" zu erkennen. Im Gegensatz dazu erzeugt Künstliche Intelligenz aus einzelnen Informationen visuelle Eindrücke, als ob man eine Beschreibung in Blindenschrift lesen würde. Es verarbeitet im Prinzip Pixel für Pixel und formt daraus komplexere Darstellungen, aber erkennt leider nie die absurde Anwesenheit des Elefanten. Hier stößt das Modell an seine Grenze.
Neuronale Netze sind durchaus geschickt in bestimmten visuellen Aufgaben. Sie können Menschen in manchen, sehr fokussierten Aufgaben überflügeln, etwa beim Sortieren von Objekten oder Klassifizieren in Best-Fit-Kategorien – beispielsweise die Kennzeichnung von Hunden mit ihrer Rasse. Aber manchmal stoßen sie halt an ihre Grenzen.
Daten sind voreingenommen
Der Schlüssel zum Erfolg sind Daten, viele Daten. Sie helfen einem KI-System zu lernen. Technisch gesprochen trainiert man ein maschinell gelerntes Modell. Dieses Modell, heutzutage häufig ein Deep Neural Network, benötigt repräsentative Daten, die die Muster und Ergebnisse abbilden, mit denen das neuronale Netz trainiert werden soll. Allerdings wäre es großartig, wenn sich in diesen Daten nicht zufällig andere Muster finden, wie Bilder mit Autos immer vor einem strahlend blauen Himmel, während Fahrradfahrer fortwährend im Regen auftauchen. Da könnte es durchaus passieren, dass das Muster hier strahlend blauer Himmel und Regen ist und nicht nur Auto und Fahrrad.
In einer aktuellen Studie [2] wurden die Gesichtserkennungsdienste von Microsoft, IBM und Face++ untersucht. Sie erkennen Gesichter und Geschlechter von Personen auf Fotos. Das Ergebnis war, dass grundsätzlich männliche Gesichter (8,1 % Fehlerrate) besser erkannt wurden als weibliche (20,6 % Fehlerrate). Zusätzlich wurden Gesichter mit hellerer Hautfarbe besser erkannt (11,8 % Fehlerrate) als Personen mit dunkler (19,2 % Fehlerrate). Die Dienste von Microsoft und IBM funktionierten am besten mit männlichen Personen mit heller Hautfarbe (~0,3 % Fehlerrate). Offensichtlich bestand der Datensatz, mit dem trainiert wurde, aus vielen männlichen Gesichtern mit heller Hautfarbe.
Das mag an der Stelle nicht wirklich kritisch sein, aber es zeigt den Einfluss des Datensatzes auf das resultierende Modell. Zudem ist es schwierig zu erkennen und zu qualifizieren, wann ein Modell homogen ist oder wann es "biased" ist. Hier muss noch einiges zum Thema Datenqualität passieren – eine eindeutige Metrik, die erkennen lässt, wie der Datensatz das Modell beeinflusst. Hierzu gibt es im Forschungsbereich bereits Arbeiten, die das Resultat eines Modells zurückrechnen auf die Daten und aussagen können, welches Feature das Resultat beeinflusst hat.
Adversarial Examples
Ein weiteres Beispiel, bei dem die Benutzung neuronaler Netze kritisch zu betrachten ist, sind sogenannte Adversarial Attacks ("gegnerische Angriffe"). Sie zielen darauf ab, dass manche (oder fast alle) Modelle völlig instabil sind, wenn dem klassifizierten Bild ein spezielles Rauschen hinzufügt wird. Für das menschliche Auge ist dieses Rauschen völlig irrelevant und hat keinen Einfluss auf die Erkennung des Bildes. Das Modell wird aber so verwirrt, dass es das Bild völlig falsch klassifiziert. In einem Paper von 2015 [3] wurde untersucht, wie leicht sich Deep Neural Networks verwirren lassen. Dabei wird nicht nur Rauschen verwendet, sondern auch Bilder, die wirre Muster darstellen. Der Mensch erkennt meistens nichts darin, das Modell, das für eine spezifische Aufgabe trainiert wurde, versucht aber ein Ergebnis zu liefern und klassifiziert eine grüne Fläche als Schlange oder eine rot gemusterte als Akkordeon.
In einem ähnlichen Fall kann jeder das mit einem Service von Microsoft testen. Der Computer Vision Service liefert zu einer Liste von Dingen, die auf dem Bild erkannt werden, auch eine Beschreibung der Szene. Auf der Website kann man ein eigenes Bild hochladen und bekommt dann die Beschreibung. Das funktioniert manchmal ganz gut, aber manchmal wird auch ein eher überraschendes Resultat zurückgegeben. Das Experiment ist beispielhaft in der Abbildung zu beobachten:
Ähnliches findet man in einer Studie von 2016 [4], die sich mit Adversarial Examples in Bezug auf Gesichtserkennung beschäftigt. Hier ist es Forschern gelungen, die Gesichtserkennung mit einer farbigen Brille soweit zu verunsichern, dass ein Mann aus dem Team als Milla Jovovich erkannt wurde. Klingt zunächst lustig, ist aber in der Konsequenz ein wenig bedenklich.
In einem weiteren Paper [5] konnten Forscher sogar die Spracherkennung von Google austricksen. Der Ansatz ist ähnlich: Es wird ein spezielles Rauschen auf die Audiodaten gemischt. Für das menschliche Gehör hat sich nichts geändert, dieSpracherkennung nimmt allerdings einen völlig anderen Inhalt wahr. Man könnte nun also bei jemandem anrufen, der einen dieser Sprachassistenten zu Hause hat und über den Anrufbeantworter einen Text übermitteln, der sich wie eine Begrüßung anhört, in Wahrheit aber eine Bestellung ausführt.
Es ist sicherlich gut, dass daran geforscht wird, die derzeitigen Grenzen oder Schwachstellen zu erkennen, um entsprechend an Lösungen zu arbeiten. So gibt es Ansätze, die Daten möglichst wild zu mischen, zu drehen und zu verwaschen (Augmentation), um den Einfluss vom Rauschen zu minimieren.
Sein oder nicht sein …
Ein interessanter Ansatz sind sogenannte GANs (Generative Adversarial Networks), bei denen es sich um zwei neuronale Netze handelt. Das eine Netz (Generator) erzeugt Bilder und präsetinert dem anderen entweder das generierte oder ein wirkliches Bild aus dem Datenpool. Das andere Netz (Diskriminator) versucht zu klassifizieren, ob es sich bei dem Bild um ein generiertes oder ein wirkliches Bild handelt. So werden beide Netze verbessert, da der Generator ein möglichst perfektes Bild erzeugen und der Diskriminator möglichst so gut sein möchte, das generierte Bild immer zu erkennen.
Das Generieren von Ergebnissen mit einem KI-Systems wird zudem auch in einem anderen Bereich verwendet. Beim Arbeiten mit Texten oder Musikstücken, also im Prinzip sequenziellen Daten, werden heutzutage Recurrent Neural Networks (RNNs) eingesetzt. Das sind Deep Neural Networks, die hintereinandergeschaltet sind und somit eine Abfolge von Informationen verarbeiten können. Diese Netze lassen sich mit Texten trainieren und sind dann in der Lage, selbst Texte zu produzieren. So hat Andrej Karpathy Texte von Shakespeare in ein RNN eingelesen [6]. Das trainierte RNN-Modell war danach in der Lage, neue Texte, die wie Shakespeare-Text aussahen, zu produzieren. Ähnliches kann man benutzen, um Mozarts Requiem zu Ende zu komponieren oder einfach neue Rock- und Pop-Songs zu erzeugen, die wie von Ed Sheeran oder Lady Gaga klingen.
Fazit
Sicherlich ist KI basierend auf Deep Learning nicht nur alter Wein in neuen Schläuchen, auch wenn die algorithmischen Grundlagen schon im letzten Jahrhundert gelegt wurden. So war es zur damaligen Zeit einfach nicht möglich, KI-Systeme mit der heutigen Qualität zu bauen. KI-Systeme können derzeit schon einen wertvollen Beitrag in vielen Bereichen liefern. Sie können helfen, in der Produktion die Produkte auf Fehler zu überprüfen, sie können bei der Spracherkennung im Call-Center und bei digitalen Assistenzsystemen unterstützen. Sie können Vorschläge in der Designphase machen oder Verträge einlesen, verstehen und validieren. KI-Systeme können sicherlich auch beim autonomen Fahren eine entscheidende Rolle spielen.
Diese Beispiele beschreiben aber alle sehr fokussierte Aufgaben im Sinne einer schwachen KI und in manchen Bereichen ist gewiss auch noch etwas Arbeit notwendig. Im Grunde gilt: Je fokussierter die Aufgabe ist, desto besser funktioniert die KI. Bei breit aufgestellten Aufgaben kann es durchaus zu interessanten Nebeneffekten kommen.
KI wird sehr wohl die Arbeitswelt und die Art, wie gearbeitet wird, verändern. Sie kann helfen, Effizienz zu steigern und Kosten zu reduzieren. Es werden sicherlich manche Tätigkeiten wegfallen, dafür werden neue entstehen. Maschinelles Lernen und Deep Learning helfen zurzeit, solche Aufgaben zu automatisieren, die vorher nicht umzusetzen waren, weil entweder die Daten fehlten oder die Rechenanforderungen zu hoch waren.
Allein die grundlegenden Funktionen von KI-Systemen, wie Computer Vision, NLP oder Robotik, lassen über neue Geschäftsmodelle und Möglichkeiten nachdenken. Für die werden dann aber vermutlich doch erst noch mal die Handwerker gebraucht.
Marcel Tilly
beschäftigt sich schwerpunktmäßig bei Microsoft mit den Themen Artificial Intelligence und IoT. Nebenbei spricht er auf Konferenzen, schreibt Artikel oder programmiert irgendwas in den Bereichen AI, ML oder auch IoT.
Literatur
- Amir Rosenfeld, Richard Zemel, John K. Tsotsos; The Elephant in the Room, 1-12 (2018)
- Joy Buolamwini, Timnit Gebru; Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification: In Proceedings of the 1st Conference on Fairness, Accountability and Transparency (2018)
- Anh Nguyen, Jason Yosinski, Jeff Clune; Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (2015)
- Sruti Bhagavatula, Lujo Bauer, Michael K. Reiter; Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition. Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security – CCS’16 (2016)
- Moustapha Cisse, Yossi Adi, Natalia Neverova, Joseph Keshet; Houdini: Fooling Deep Structured Prediction Models (2017)
- Andrej Karpathy; The Unreasonable Effectiveness of Recurrent Neural Networks (2015)
(ane)