Die Säulen der Moderne
Durchbrüche, Wegbereiter und Strömungen der KI-Forschung
Dass man einem KI-Copiloten eine Frage stellen und mit einer brauchbaren Antwort rechnen kann, ist ein Verdienst von Forschung, die teils vor Jahrhunderten begonnen hat. In KI-Anwendungen verschmelzen Erkenntnisse verschiedenster Wissenschaften. Wir zeichnen nach, wie es zu heutigen Durchbrüchen kommen konnte.
Gibt es eigentlich eine Geburtsstunde der künstlichen Intelligenz? Den einen Tag, an dem die Idee in die Welt kam? In der Literatur wird gern das „Dartmouth Summer Research Project on Artificial Intelligence“ genannt, eine fachübergreifende Intensivarbeitsphase, die vom 19. Juni bis zum 16. August 1956 in Hanover, New Hampshire, stattfand. Im Konzept der Veranstaltung ist von „artificial intelligence“ die Rede (siehe ct.de/ybxg), der erste schriftliche Beleg für diese Formulierung. Im Text, der an potenzielle Geldgeber gerichtet war, hieß es, man wolle sich damit beschäftigen, wie Maschinen Sprache benutzen, Abstraktionen erzeugen und Probleme lösen, die bisher nur Menschen lösen können.
Das Geld wurde bewilligt und die Veranstaltung fand statt. Zu ihren Organisatoren gehörte Marvin Lee Minsky, der schon Jahre vor der Dartmouth Conference für die KI eine größere Rolle spielte. Dieser Artikel versucht aufzuzeigen, warum es den einen Geburtstag der KI nicht geben kann und man stattdessen auf verschiedene Ansätze, Strömungen und das Zusammenspiel von Wissenschaften und Softwareindustrie blicken muss. Gleichzeitig liefert er Lesetipps mit Meilensteinen der KI-Geschichte, die in ChatGPT, Midjourney und neuen Ansätzen wie multimodalen Modellen (siehe S. 52) einen vorläufigen Höhepunkt erreicht hat.
Auf den Schultern von Riesen
Künstliche Intelligenz führt zusammen, was auf den ersten Blick nicht zusammenzugehören scheint. Beim Studium der Quellen wird deutlich, dass Silodenken innerhalb wissenschaftlicher Disziplinen oder gar eine Trennung von Geistes- und Naturwissenschaften die Menschheit nicht vorangebracht hätte.
Klar ist, es würde weder die Informatik als Wissenschaft noch künstliche Intelligenz als Produkt geben ohne mathematische, neurowissenschaftliche und philosophische Grundlagenarbeit. Und so steht jede KI-Anwendung, die heute auf den Markt kommt, auf drei massiven Säulen, die teils vor Jahrhunderten errichtet wurden. Eine Säule bilden Philosophie und Logik; Fächer, aus denen später die Informatik erwuchs. Ohne Grundlagenarbeiten zu Binärsystem, Aussagenlogik und Wahrheitstabellen von Geistesgrößen wie Leibniz (1646–1716) oder George Boole (1815–1864) hätten viele spätere Ideen keine Chance gehabt. Später wird jener Leibniz noch einen Überraschungsauftritt hinlegen, der die KI-Forschung in einem entscheidenden Moment voranbringen wird.
Die zweite Säule bildet das, was heute als Neurowissenschaften zusammengefasst wird und sich wiederum aus Disziplinen wie Medizin, Biologie und Psychologie zusammensetzt, historisch aber eher aus der Ecke der Philosophie stammt – ausgehend von der Frage, wie unser Gehirn eigentlich funktioniert. Ein herausragender Autor, der diese Säule mit aufgerichtet hat, ist Alexander Bain (1818–1903). Von Beruf war er Professor für Mathematik, aber auch für Englische Grammatik, Philosophie und Logik. Und weil ihm das allein nicht reichte, interessierte er sich auch für Psychologie. 1873 erschien sein auch heute lesenswertes und in leicht verständlichem Englisch verfasstes Werk „Mind and Body: The Theories of Their Relation“ [1]. Wer keine Universitätsbibliothek in der Nähe hat, findet das Buch im Volltext kostenlos im Internet Archive (siehe ct.de/ybxg).
Bain geht von der Erkenntnis aus, dass man das Gehirn unmöglich dadurch verstehen wird, dass man die Zellen der Gehirnmasse im Labor untersucht. Er schlägt vielmehr vor, die Funktionsweise zu ergründen, indem man das Zusammenspiel von Nerven, Sinnen, Bewegungsapparat und Gehirn nachvollzieht: „Using all this knowledge as a key, we may possibly unlock the secrets of the anatomical structure; we may compel the cells and fibres to disclose their meaning and purpose.“
Im Verlauf des Buchs nähert sich Bain ausgehend von den Nervenenden der Funktion des Gehirns, bevor er im Kapitel „The Intellect“ erklärt, wie die Zellen im Gehirn miteinander vernetzt sind und dass die Verbindungen unterschiedlich stark ausgeprägt sind – also nicht jede Zelle jede andere gleich stark reizt. Ohne diese Grundlagenarbeit hätte es später keine künstlichen neuronalen Netze gegeben. Die Parallelen werden unweigerlich bei Lektüre des Artikels ab Seite 22 deutlich. Was Bain über Bilderkennung im menschlichen Gehirn und dessen Fähigkeit zum Wiedererkennen von Personen sagt, könnte gleichermaßen auch aus einem Fachartikel über künstliche Intelligenz stammen: „The memory does not retain a coloured photograph, but only a few salient and deciding marks; perhaps not more than from six to ten indications of form, size, and colour. These are enough for identification, and we do not retain any more, except in cases of very peculiar intimacy.“ (S. 105f). Sehr wahrscheinlich haben all jene, die Mitte des 20. Jahrhunderts daran arbeiteten, die Funktion von Gehirnzellen in technischen Apparaten nachzubilden, das Buch von Bain gekannt.
Holprige technische Umsetzung
Die dritte Säule, ohne die künstliche Intelligenz nicht existieren kann, ist schließlich die der (Computer-)Technik. Nicht von Anfang an standen KI-Forschern programmierbare Computer zur Verfügung. Wie anstrengend die Forschung an Systemen ist, die Neuronen in einem Gehirn technisch nachbilden, ohne eine programmierbare und leistungsfähige Rechenmaschine zu haben, musste Marvin Minsky (1929–2016) in der Anfangszeit seiner Forschung in Harvard und am MIT erfahren.
Er brütete schon in den 1940ern an der Idee, eine Maschine zu bauen, die lernt, ein Problem zu lösen – konkret, den Weg durch ein (virtuelles) Labyrinth zu finden. Inspiriert wurde Minsky durch die Arbeit von Warren McCulloch und Walter Pitts, die das Tor zwischen Neurowissenschaft und früher Informatik aufstießen und biologische Neuronen abstrakt beschrieben. 1943 veröffentlichten sie ein Modell der Funktion von Neuronen, das später als McCulloch-Pitts-Zelle Karriere machte [2]. Eine solche Zelle hat Eingangsleitungen, einen Schwellwert und einen Ausgang. Die Werte an den Eingängen addiert die Zelle und wenn die Summe der Werte größer als der Schwellwert ist, „feuert“ sie, gibt also 1 aus – sonst 0. Verbindet man solche Zellen zu einem Netz, kann man es dadurch trainieren, dass man die Schwellwerte justiert. McCullogh und Pitts skizzierten, dass Zellen mit mehreren Eingängen die logischen Verknüpfungen AND, OR und NOT abbilden konnten.
Im Jahr 1949, als Minsky erstmals die Idee hatte, solche Zellen technisch zu bauen, waren noch nicht einmal Transistoren Stand der Technik, geschweige denn Computer oder programmierbare Mikrocontroller. 1951 hatte Minsky dann mit Dean Edmonds einen Mitstreiter für seine Idee gefunden und baute mit Geld der US Navy eine analoge lernende Maschine, die mit großem elektromechanischen Aufwand ein Netz aus 40 Neuronen simulierte: SNARC, den „Stochastic Neural Analog Reinforcement Calculator“.
Der genaue Versuchsaufbau oder seine Schaltpläne sind nicht erhalten, überliefert ist nur die Funktionsweise: Jedes künstliche Neuron hatte ungefähr die Größe eines Briefumschlags, bestand aus einer Grundplatte mit Elektronenröhren, einem Kondensator für das Kurzzeitgedächtnis und einem Drehpotentiometer. Alle Potentiometer hingen über Antriebsketten an einem Motor, über Magnetkupplungen konnten sie gedreht werden. Jedes Neuron hatte Eingänge und einen Ausgang.
Die Potentiometer repräsentierten die Schwellwerte. Die klobigen Neuronen verschalteten Minsky und sein Kollege Dean Edmonds, der für die Elektronikbastelei zuständig war, zufällig mit Kabeln und Bananensteckern. Zum Versuchsaufbau gehörte eine Tafel aus Lichtern, die das Labyrinth darstellte. Minsky und Edmonds sahen der Maschine dabei zu, wie virtuelle „Ratten“ in Form von aufleuchtenden Lampen den Weg zum Ausgang suchten. Anfänglich folgten sie keinerlei System, weil die Neuronen einfach drauflos feuerten. Dennoch erreichte das System rein zufällig auch auf chaotischem Weg das Ziel. Immer dann drückte der Versuchsleiter einen Schalter, der die Maschine belohnte, indem er den Motor aktivierte.
Lernen durch Belohnen
Die Kondensatoren in den Neuronen (das Kurzzeitgedächtnis) wurden immer dann geladen, wenn das Neuron in dieser Trainingsrunde gefeuert hatte. Die entluden sich in der Belohnungsphase, steuerten die zugehörige Magnetkupplung an, das Potentiometer wurde ein Stück aufgedreht und der Schwellwert angepasst. Das Prinzip des Reinforcement Learnings (Lernen durch Verstärkung) war mechanisch umgesetzt. Auf diese Weise war das rein analoge Netzwerk mit nur 40 Neuronen in der Lage, die Aufgabe von Runde zu Runde zielgerichteter zu bewältigen. Gleichzeitig erwies sich die Elektronikbastelei nicht als sonderlich stabil und Minsky sagte später im Interview, dass er sich nicht sicher war, ob jemals alle Neuronen gleichzeitig fehlerfrei liefen. Das führte zu einer unerwarteten Erkenntnis: Dank der zufälligen Verschaltung war das System stets in der Lage, ausgefallene Neuronen schnell zu ersetzen.
Aus heutiger Sicht wäre diese Anlage ein anschauliches Exponat für ein technisches Museum oder den Informatikunterricht, wären die Teile oder die Baupläne erhalten geblieben. Praktische Anwendung fand Minskys Maschine nie, legte aber den Grundstein für weitere Forschung. 1960 stellte Frank Rosenblatt, ein Schulfreund von Minsky, seine kleiderschrankgroße Maschine namens „Mark I Perceptron“ vor, die mithilfe einer Kamera einfache Muster klassifizieren sollte. Auch in ihr bestanden die Neuronen aus elektromechanischen Modulen, auf denen Motoren beim Training Potis bewegten. Das Handbuch der Perceptron-Maschine ist erhalten und online abrufbar (zu finden über ct.de/ybxg).
Die Besonderheit der Maschine bestand nicht in der Mechanik, sondern im dreischichtigen Aufbau. Ein Raster aus 20 × 20 Photozellen an einer Kameraoptik bildete die Eingangsschicht. Verdrahtet waren sie mit 512 Neuronen einer Zwischenschicht, die „association units“ hießen. Dazu kam eine Ausgabeschicht aus 8 Neuronen. Nach dem Training schaffte es die Anlage, unter anderem ein Dreieck zu erkennen, also ein Bild zu klassifizieren.
Perceptronen und ihre Grenzen
Die Hoffnung, damit den Durchbruch beim Bau von KI-Maschinen geschafft zu haben, zerstörten spätestens 1969 Marvin Minsky und Seymour Papert mit ihrem Buch „Perceptrons: an introduction to computational geometry“. Es sollte einen Wendepunkt in der Forschung darstellen [3], jedoch nicht zum Positiven: Die Autoren bewiesen mathematisch, dass einschichtige Netze eine Sackgasse darstellten, weil eine einzige Schicht Neuronen (oder Perceptronen) unmöglich die Verknüpfung XOR (exklusives Oder) darstellen könne.
Klar wurde, dass Durchbrüche nicht durch beliebig viele Perceptronen in einer Schicht zu erreichen wären, sondern allein durch mehrschichtige Netze. Doch die bisherige Strategie beim Training funktionierte mit mehr Schichten einfach nicht mehr, weil es unmöglich erschien zu ermitteln, welche Gewichte innerhalb der mittleren Schichten (sogenannter Hidden Layer) wie angepasst werden müssten. Eine Idee, wie man Training dahingehend verändern könnte, hatte damals niemand.
Und so sorgte Minsky unfreiwillig mit dafür, dass Ernüchterung in der KI-Forschung einsetzte und eine Phase anbrach, die als KI-Winter in die Geschichte einging. Das US-Militär strich die Forschungsgelder zusammen. Die Schuld am KI-Winter Minsky zuzuschreiben, sei aber falsch, schrieb in einer Rückschau auf die KI-Forschung ein gewisser Paul Werbos, der später noch eine wichtige Rolle spielen wird, in einem Konferenzpaper von 2006 (siehe ct.de/ybxg). Minsky habe nur zusammengefasst, was alle in der Szene damals bemerkt hatten: Einschichtige neuronale Netze dieser Art waren eine Sackgasse, mehrschichtige Netze erschienen nicht realisierbar.
Rückblickend hatte die Menschheit dadurch etwas Zeit gewonnen, die dritte Säule – also die technische Umsetzung – zu stärken und leistungsfähigere programmierbare Computer zu erfinden. Die nächste Generation von KI-Forschern würde mit handgelöteten elektromechanischen Apparaten und Magnetkupplungen an Potentiometern nichts mehr zu tun haben.
Durchbruch Backpropagation
Den entscheidenden neuen Ansatz lieferte Paul Werbos im Jahr 1982. Er wandte ein Prinzip an, das er 1974 schon in seiner Dissertation hatte anklingen lassen: „Backpropagation of Errors“ für das Training von neuronalen Netzen. Der Aufsatz, der den KI-Frühling einleiten sollte, hieß „Applications of advances in nonlinear sensitivity analysis“ (siehe ct.de/ybxg) [4]. Was es mit der Backpropagation genau auf sich hat, lesen Sie in aller Ausführlichkeit im Artikel auf Seite 22. Die Kurzform: Werbos beschrieb, wie man im Training den Fehler des Netzes von der letzten Schicht ausgehend wieder ins Netz zurückspeisen und für jedes Neuron den Anteil am gesamten Fehler berechnen kann. Damit war endlich das Problem gelöst, dass mehrschichtige Modelle bisher einfach nicht trainierbar waren. Erfunden hatte Werbos das Konzept jedoch nicht: Er wandte vielmehr einen Algorithmus an, den Seppo Linnainmaa schon 1970 beschrieben, jedoch nicht auf neuronale Netze angewendet hatte. Der Algorithmus selbst basiert auf der Kettenregel bei Ableitungen, die ein gewisser Leibniz im Jahr 1676 erstmals in einem Text benutzt hatte.
Nach dem Werbos-Aufsatz kam die KI-Forschung wieder in Schwung, diesmal mit ganz anderer technischer Ausstattung. 1986 war es Geoffrey Hinton (ganz nebenbei der Ururenkel von George Boole), der zusammen mit David E. Rumelhart und Ronald J. Williams in einem Nature-Artikel (siehe ct.de/ybxg) eine praktische Umsetzung der Ideen von Werbos beschrieb.
Die Klassifizierung von Bildern ist ein typisches Beispiel für die Netze, die in dieser Zeit trainiert und beforscht wurden. Wenn Sie sich selbst ein Bild davon machen wollen, was ein einfaches dreischichtiges Netz leisten kann und wie es anhand von vorsortierten Daten lernt, sei Ihnen unser Beispielprojekt ab Seite 30 zum Nachmachen empfohlen.
Faltungen
Die nächste Evolutionsstufe in der Forschung leiteten Convolutional Networks im Jahr 1987 ein. Denn es wurde klar, dass die Zukunft der Forschung nicht darin bestehen würde, einfach immer größere Netze aus immer mehr künstlichen Neuronen zu simulieren und auf immer größere Datensätze loszulassen. Ein neuer Kniff musste her und den brachten Autoren wie Alex Waibel im Jahr 1987 und Yann LeCun und Kollegen 1989 ins Spiel: Convolutional Networks; Zwischenschichten, die Formen und Muster abstrahieren. Das Paper von Yann LeCun et al. mit dem Titel „Backpropagation Applied to Handwritten Zip Code Recognition“ (siehe ct.de/ybxg) ist eine absolute Leseempfehlung (auch für Nicht-Mathematiker), weil es sehr praxisnah beschreibt, wie die Forscher ein Netz für handgeschriebene Postleitzahlen trainiert haben [5].
Was es mit Convolutional Networks genau auf sich hat, fassten wir in einem c’t-Artikel aus dem Jahr 2017 [6] wie folgt zusammen: „Die einfachste Schicht eines neuronalen Netzes besteht aus Neuronen, die eine Synapse zu jedem Neuron auf der darunterliegenden Schicht haben (fully connected layer). Bei einem Bild würde das bedeuten, dass das Netz für jede Position im Bild jede Form und jedes Muster lernen muss. Eine Kante links oben wäre für das Netz etwas völlig anderes als eine Kante rechts unten [...].
Aus diesem Grund haben sich bei der Bilderkennung Convolutional Layer durchgesetzt. Sie erzwingen, dass eine Kante links oben genau wie eine Kante links unten behandelt wird, da sie für beide Positionen die gleichen Gewichte an den Synapsen verwenden. Stellen Sie sich dafür ein ganz kleines neuronales Netz vor, das beispielsweise nur ein einzelnes Neuron mit 27 Synapsen hat, die einen Bereich von 3 × 3 Pixeln „sehen“. Den Bereich, den dieses Neuron sieht, schieben Sie in Ihrer Vorstellung zeilen- und pixelweise über das Eingabebild. Aus dem Level der Aktivierung dieses Neurons an jeder Position entsteht wieder eine Art Schwarz-Weiß-Bild. Mathematisch entspricht das einer Faltung (englisch ,convolution‘) mit einem Filter, der den Gewichten an den Synapsen entspricht.“
| KI-Probleme und ihre Lösungen | ||
| Problem | Lösung | Maßgebliche Autoren |
| Training von Hidden Layers in Multi-Layer-Netzen | Backpropagation of Errors | Werbos, Hinton, Rumelhart, Williams |
| Komplexere Klassifizierungen nicht möglich | Convolutional Networks | Waibel, LeCunn |
| Vanishing Gradients (geringe Lernerfolge von RNNs) | Long Short-Term Memory (LSTM) | Hochreiter, Schmidhuber |
Die Dimension der Zeit
Bisher war meist von Bilderkennung die Rede, wenn es um konkrete Anwendungen ging. Das hat einen guten Grund: Die neuronalen Netze, die bisher beforscht wurden, waren Feed-Forward-Netze, kannten nur eine Richtung, in der die Signale von Schicht zu Schicht weitergegeben werden: Eingabeschicht, Hidden Layers, Ausgabeschicht. Solche Netze sind nicht in der Lage, eine zeitliche Dimension zu verarbeiten. Für Aufgaben wie Sprach- oder Texterkennung sind sie nicht gut geeignet, denn aus einem Text oder einer Audiosequenz kann man nichts lernen, wenn man sie in einem Stück in ein neuronales Netz wirft. Die Bedeutung eines Wortes hängt zum Beispiel auch davon ab, wo im Text es steht.
Dieses Problem lösen rekurrente neuronale Netze (RNN), die eine Eingabesequenz schrittweise verarbeiten und die Ausgabe zusammen mit dem nächsten Schritt wieder vorne ins Netz einspeisen. Weil solche Netze gut geeignet sind, um Sprache zu verstehen, ist es kein Wunder, dass es mit Jeffrey Locke Elman ein Linguist war, der 1990 diese Idee vorschlug. Doch RNN haben ein entscheidendes Problem, das als „vanishing gradient problem“ (verschwindende Gradienten) Einzug in die Literatur gehalten hat. Das tritt auf, wenn das Netz Informationen berücksichtigen soll, die mehr als ein paar Schritte in der Vergangenheit liegen. Die Gradienten (mehr dazu im Artikel ab S. 22) werden zu klein, der Lernfortschritt für das Netz ist zu langsam.
Den Ausweg aus dieser Misere lieferten im Jahr 1997 Josef Hochreiter und Jürgen Schmidhuber mit ihrem wegweisenden Paper „Long-Short-Term Memory“ (siehe ct.de/ybxg), abgekürzt LSTM [7].
Um größere Gradienten, also größeren Lernerfolg zu bekommen, drehten Hochreiter und Schmidhuber das Prinzip um und brachten den LSTMs bei, Informationen im Normalfall unverändert von Zeitschritt zu Zeitschritt weiterzugeben. Bei jedem Zeitschritt (in einem Text zum Beispiel bei jedem Wort) entscheidet das Netz, ob es neue Informationen einspeisen oder vergessen soll. Ausführlich vorgestellt haben wir LSTMs zusammen mit einem Programmierbeispiel im Jahr 2017 [8].
Jüngste Fortschritte
LSTMs und die rasante Weiterentwicklung von Computerhardware prägten die Zweitausender. Mit mehr Rechenleistung konnten auch die Netze wachsen und signifikante Fortschritte zum Beispiel bei Spracherkennung machen.
Den nächsten Meilenstein, der eine neue Idee in die Forschung einbrachte, zementierten Ian J. Goodfellow und Kollegen im Jahr 2014. „Generative Adversarial Nets“ heißt das Paper [9]. Es beschreibt einen Ansatz, bei dem zwei neuronale Netze gegeneinander antreten. Das eine wird darauf trainiert, Daten zu generieren – zum Beispiel ein Bild. Das zweite tritt als Kontrahent an und soll erkennen, ob ein Bild aus den Trainingsdaten stammt oder vom ersten Modell erfunden wurde. Eine einfache Idee, die später zur Grundlage für Bildgeneratoren wie Midjourney wurde (mehr dazu ab S. 116).
Das Paper, das maßgeblich dazu beigetragen hat, dass künstliche Intelligenz in sämtlichen Medien zum Thema geworden ist, heißt „Attention Is All You Need“ und stammt aus dem Jahr 2017. Ashish Vaswani und seine Kollegen bei Google und an der Uni Toronto beschreiben darin Netze vom Typ „Transformer“ – dafür steht auch das T in GPT und ChatGPT. Das Besondere an solchen Transformern: Sie lernen beim Training nicht nur, wie sie die Daten verarbeiten, sondern auch, worauf sie ihre Aufmerksamkeit richten müssen. Transformer arbeiten sequenziell wie LSTMs, sie speichern Bedeutungsvektoren für gelernte Worte ab und – das ist neu – entscheiden beim Training, welchen Teil einer Sequenz sie berücksichtigen wollen und speichern in einer Aufmerksamkeitsdatenbank, worauf sie in einem Kontext die Aufmerksamkeit gerichtet haben. Das ist nicht nur in der Theorie brillant, sondern auch noch effizient: Transformer kann man auf paralleler Infrastruktur trainieren und dadurch gigantische Datensätze zum Training nutzen. Nur so konnten es OpenAI und Google schaffen, Systeme zu trainieren, die nahezu beliebige Texteingaben aus allen Themenbereichen sinnvoll verarbeiten. Wenn Sie sich für alle Details von Transformern interessieren: 2022 haben wir ihre Funktionsweise im Kontext von GPT-3 erklärt [10].
Fazit
Diese kurze und bei Weitem nicht vollständige Geschichte der KI-Forschung zeigt vor allem: Beim Versuch, das menschliche Gehirn nachzubilden, kommt es nicht allein darauf an, die Masse an simulierten Neuronen zu erhöhen, auch wenn das hin und wieder hilft. Die großen Sprünge in der Entwicklung haben stets neue raffinierte Ideen und Ansätze für altbekannte Probleme gebracht. Dass KI mit Transformern zum Produkt für die Massen werden konnte, verdankt die Menschheit Grundlagenforschung, brillanten Ideen und am Ende auch schierer Rechenleistung – zunächst von klassischen Prozessoren, später von spezialisierten KI-Chips. Was es mit denen auf sich hat, lesen Sie ab Seite 62. (jam@ct.de)
Wissenschaftliche Artikel: ct.de/ybxg