Künstliche Intelligenz – zwischen Hype und Realität

Menschen können sich bis zu 8000 verschiedene Gesichter merken und unterscheiden, weit mehr als jede KI-Software. Das überrascht, wenn man sich die Erfolgsmeldungen zur Künstlichen Intelligenz vor Augen führt. Was steckt also hinter dem Hype, und was ist Realität?

258

11.12.2018, 08:42 Uhr

Lesezeit: 12 Min.

Developer

Von

Marcel Tilly

Künstliche Intelligenz – zwischen Hype und Realität
- Ein Elefant, ein Elefant
Daten sind voreingenommen
Fazit

Auf einer Seite lesen

Künstliche Intelligenz ist nicht neu, vor allem aber zurzeit sehr populär. Das liegt an mehreren entscheidenden Faktoren, und zwar den riesigen Mengen gut qualifizierter Daten, die es ermöglichen, die technischen Ansätze aus dem Deep Learning zu verwenden, um entsprechende Modelle zur Sprach- oder Bilderkennung zu berechnen. Dann die Rechenkapazitäten in großen Cloud-Rechenzentren und die Hardwareunterstützung durch GPUs, die eine effektive Berechnung endlich erlauben. Die Erfolgsmeldungen zu KI und Deep Learning reißen hier nicht ab:

2016 wird bei der ImageNet Challenge das ResNet-Modell vorgestellt, das Elemente auf Bildern genauso gut erkennen kann wie der Mensch. Das nennt man Human-parity. Der Computer oder das Modell hat die gleiche Fehlerrate wie ein Mensch: ~4 Prozent.
2017 wird Human-parity bei der Spracherkennung erreicht. Der Computer kann gesprochene Sprache mit der gleichen Word-Error-Rate (WER) verstehen wie ein Mensch.
2018 liest ein Computer beim SQuAD Reading Test genauso gut wie ein Mensch.
2018 wird im Bereich Übersetzung Human-parity erreicht. Das System kann einen Text von einer Sprache in eine andere so gut wie ein Dolmetscher übersetzen.

Das sind alles Erfolge, von denen wiederum großartige Dinge wie autonome Autos, menschenähnliche Bots oder Systeme, die Go spielen können, profitieren können. Einfach gesagt, scheint es so, als könne man mit KI einfach jede Problemstellung lösen. KI beschränkt sich dabei nicht nur auf Computer Vision (Bildverarbeitung) oder Natural Language Processing (Sprachverarbeitung), sondern umfasst auch Themen wie Robotik und Lernen. Häufig ist das technische Mittel dahinter Deep Learning: Der Hammer, für den nun jedes Problem wie ein Nagel aussieht.

Sonderheft iX Developer – Machine Learning

Mehr Artikel zu Machine und Deep Learning sowie zur Künstlichen Inteligenz sind im Sonderheft "iX Developer – Verstehen, verwenden, verifizieren" zu finden, das unter anderem im heise Shop erhältlich ist.

Deep Learning benutzt Deep Neural Networks, um Modelle zu erlernen, die sich dann auf Probleme anwenden lassen. Diese sind meistens sehr fokussiert, zum Beispiel Gesichtserkennung, Gefühlserkennung, Objekterkennung und Spracherkennung. Deshalb spricht man bei diesen KI-Systemen auch von Narrow KI oder "Schwacher KI". Sie sind meistens in der Lage, eine speziell erlernte Aufgabe recht zuverlässig zu erledigen. Die KI profitiert davon, dass sie in der Lage ist, von vielen Daten zu lernen und Informationen schnell zu verarbeiten. Dabei sollte man nicht dem Trugschluss erliegen, dass das System wirklich intelligent ist.

Ein Elefant, ein Elefant

In einer Studie [1] fanden Computerwissenschaftler heraus, dass Systeme künstlicher Intelligenz einen Sehtest nicht bestanden, den ein Kind mit Leichtigkeit absolvieren konnte. In ihr präsentierten die Forscher ein Computer-Vision-System mit einer Wohnzimmerszene. Es ist in der Lage, die Objekte richtig zu identifizieren: Es hat einen Stuhl, eine Person und Bücher in einem Regal richtig erkannt. Dann wird ein anomales Objekt in die Szene eingeführt: das Bild eines Elefanten. Die bloße Anwesenheit des Elefanten verwirrt das System. Es fängt an, einen Stuhl als Couch und den Elefanten als Stuhl zu erkennen. Andere Objekte hingegen werden gar nicht mehr erkannt.

Das ist ein interessantes Verhalten. Ein Mensch nimmt die Szene mit dem Elefanten als Ganzes wahr und ist in der Lage, die Anwesenheit des Elefanten in dem Zimmer als "falsch" zu erkennen. Im Gegensatz dazu erzeugt Künstliche Intelligenz aus einzelnen Informationen visuelle Eindrücke, als ob man eine Beschreibung in Blindenschrift lesen würde. Es verarbeitet im Prinzip Pixel für Pixel und formt daraus komplexere Darstellungen, aber erkennt leider nie die absurde Anwesenheit des Elefanten. Hier stößt das Modell an seine Grenze.

Neuronale Netze sind durchaus geschickt in bestimmten visuellen Aufgaben. Sie können Menschen in manchen, sehr fokussierten Aufgaben überflügeln, etwa beim Sortieren von Objekten oder Klassifizieren in Best-Fit-Kategorien – beispielsweise die Kennzeichnung von Hunden mit ihrer Rasse. Aber manchmal stoßen sie halt an ihre Grenzen.