Schneller als gedacht
ChatGPT zwischen wirtschaftlicher Effizienz und menschlichem Wunschdenken
Sprachmodelle wie ChatGPT erklären die Welt, ohne sie zu verstehen. Aber ist semantisches Verständnis wirklich nötig? Oder wäre es für KI-Firmen sogar ein Hindernis auf dem Weg zum wirtschaftlichen Erfolg? Die Geschichte lehrt, dass der Durchbruch neuer Technologien von anderen Faktoren abhängt.
Die aktuellen Debatten um Sprachmodelle wie ChatGPT erwecken den Eindruck, dass der maschinellen Sprachverarbeitung kaum Grenzen gesetzt sind. Ob Geschäftsbericht, Zeitungsartikel, Hausarbeit oder Roman – Chatbots beherrschen scheinbar alles. Viele Stimmen gehen davon aus, dass maschinengenerierte Texte schon bald die Norm darstellen werden und nicht mehr von Menschen geschriebene. Die Erwartungshaltung beim Lesen von Texten würde sich dadurch verändern: KI-Produkte wären die Regel, menschliche Texte die Ausnahme. Sie würden aus der Reihe tanzen, wie es heute eine Postkarte tut.
Noch haben die Systeme allerdings gravierende Mängel. Jeder, der mit ChatGPT experimentiert, stößt auf Fehler. Das Grundproblem ist, dass die KI nicht versteht, worüber sie spricht. Was für das menschliche Gehirn semantische Zeichen sind, die eine Bedeutung transportieren, verarbeitet die Software in syntaktischen und mathematischen Beziehungen, die sich aus Trainingsdaten und statistischen Berechnungen ableiten. Systeme wie ChatGPT wetten darauf, dass sich die Bedeutungsebene von Sprache über numerische Relationen erschließen lässt. Sind Sprechen und Schreiben also Funktionen, die sich wie Routen bei Google, wie Matches bei Parship, wie die Wettervorhersage berechnen lassen?
Der Leistungssprung, den die Sprachmodelle in den vergangenen Jahren gemacht haben, ist erstaunlich. Er zeigt, wie weit der Ansatz trägt, Wörter und Wortfolgen auf der Basis statistischer Wahrscheinlichkeiten aneinanderzureihen. Dennoch gibt es keinen Beleg dafür, dass die Semantik sich vollständig über syntaktische Relationen erschließen ließe. Das Gegenteil ist allerdings auch nicht nachweisbar.
Ist es also nur eine Frage der Zeit, bis Systeme die Bedeutungsebene beherrschen – sei es, dass sie echtes Sprachverstehen entwickeln, sei es, dass sie es hinreichend simulieren? Oder sind der KI kategorische Grenzen gesetzt, über die sie nicht hinauswachsen kann?
Endlose Beta-Phasen
Es gehört zum Wesen von Software, dass sie in einem fortwährenden Modus von Beta-Versionen und Updates existiert. Das gilt insbesondere für aktuelle Sprachmodelle, die darüber hinaus nicht deterministisch sind. Für ein und dieselbe Eingabe – sei es eine Frage, eine Beschreibung oder ein Befehl – produzieren die generativen Systeme jedes Mal ein anderes Ergebnis und Entwickler passen die Software fortwährend an. Nach außen schotten Hersteller wie OpenAI die internen Funktionsweisen ihrer KI jedoch weitgehend ab, schon um ihren Vorsprung gegenüber der Konkurrenz zu verteidigen.
Im Unterschied zu den Anwendern profitieren die Hersteller von dem Dauernebel, der die KI umgibt. Sie rechnen nicht nur mit Kritik, sondern fordern Feedback geradezu ein. Denn damit werden die lernenden Systeme weiter trainiert und optimiert. So wandeln die Hersteller Mängel in Optimierungsversprechen um. Obwohl die Intelligenz der Systeme also permanent von der Korrektur durch menschliche Nutzer abhängt, legen sie dies nicht als Schwäche aus, sondern verkaufen es als Potenzial: Mit mehr Daten werden die Sprachmodelle immer besser, so das Versprechen.
Aufmerksamkeitsökonomie
Der Erfolg einer Software leitet sich aber nicht nur aus ihrer technischen Leistung ab. Auch das zeigt ChatGPT. Der Erfolg des Chatbots beruht nicht zuletzt auf der Aufmerksamkeit, die die kalifornische Firma OpenAI erregen konnte. Die Debatten rund um ChatGPT – in Form von Storytelling, Berichten oder Spekulationen – sind ein immanenter Bestandteil des Produkts, die über den Erfolg mit entscheiden. Googles überstürzte Reaktion auf die enorme Resonanz, die ChatGPT hervorrief und die auch die Schöpfer des Chatbots überrumpelte, trägt dem Rechnung. Offensichtlich war der Zeitpunkt der Präsentation von Googles Chatbot Bard Anfang Februar nicht von der technischen Leistungsfähigkeit, sondern von der Aufmerksamkeitsökonomie diktiert.
Eigentlich sollte man meinen, dass die Aufmerksamkeitsökonomie nach dem einfachen Prinzip „je mehr, desto besser“ funktioniert. Aber offenbar gibt es auch ein Zuviel des Guten. Kaum war ChatGPT auf Basis des Sprachmodells GPT-3.5 auf dem Markt, folgte auch schon ein Update für Microsofts Suchmaschine Bing. Die Gerüchteküche um den Nachfolger GPT-4 brodelte so heftig, dass sich der Chef von OpenAI, Sam Altman, im Vorfeld der Veröffentlichung Mitte März genötigt sah, die Erwartungen zu dämpfen. „Die Leute betteln geradezu darum, enttäuscht zu werden – und das wird auch passieren“, erklärte er Anfang Februar in einem Interview mit dem Silicon-Valley-Beobachter StrictlyVC. Die veröffentlichte neue Version des Sprachmodells soll zwar deutlich weniger Fehler machen und sich nicht so leicht zweckentfremden lassen, verharrt aber noch immer auf dem Kenntnisstand vom September 2021.
Blick in die Geschichte
Die Faszination, die Sprachmodelle heute auslösen, lässt leicht vergessen, dass sie auf eine wechselvolle 70-jährige Geschichte zurückblicken. Die Erwartungen an die Leistungsfähigkeit der Systeme waren gemessen am Stand der Technik von Anfang an überzogen.
Als Begründer der statistischen Sprachanalyse gilt der russische Mathematiker Andrei Markow (1856 bis 1922), der in seinen Arbeiten bereits vor dem Ersten Weltkrieg herausfand, dass Buchstaben in Wörtern und Sätzen nach statistischen Regeln aufeinander folgen. Erst nach dem Zweiten Weltkrieg gelang es dem Informationstheoretiker Claude Shannon (1916 bis 2001), aus den von Markow gewonnenen Erkenntnissen ein Regelwerk abzuleiten, mit dem sich Sätze konstruieren ließen. Sein noch sehr rudimentäres Sprachmodell stützte sich auf verschiedene statistische Parameter, die Häufigkeit und Verteilung von Wörtern beschrieben. Damit bildete er beliebig lange Wortfolgen, die durchaus wie Englisch klangen, aber kaum Sinn ergaben.
Berühmt geworden ist ein so generierter Satz aus Shannons „The Mathematical Theory of Communication“ (1948): „The head and in frontal attack on an English writer that the character of this point is therefore another method for the letters that the time of whoever told the problem for an unexpected.“ Der grammatikalisch und inhaltlich verquere Satz beruht nicht auf der Intention eines Sprechers, sondern wurde Wort für Wort aus den Wahrscheinlichkeiten errechnet, mit denen Begriffe im Englischen aufeinander folgen. Dennoch sahen viele in dem mysteriösen „Angriff auf den Autor“ einen Angriff der subjektlosen Statistik auf den Menschen.
Sinnfreies Kauderwelsch
Shannon erzeugte seine Sätze zunächst manuell, später maschinell, kam damit aber nie über das Niveau des oben zitierten Satzes hinaus. Doch trotz der offensichtlichen grammatikalischen und semantischen Schwächen vermutete man in der Methode nur allzu gern etwas Revolutionäres: Ist alles Geschriebene in Wahrheit das Ergebnis eines statistischen Zufallsprozesses, der gar nicht vom Bewusstsein und der Intention eines sprachbegabten Subjekts abhängt? Bildet sich die Sprache auf der Grundlage der Statistik und der Wahrscheinlichkeitsrechnung quasi autonom? Die einen glaubten, den Schlüssel zur Funktionsweise des menschlichen Denkens und Sprechens in den Händen zu halten. Andere, wie der amerikanische Mathematiker Warren Weaver, kündigten Übersetzungsmaschinen an, die eine neue Völkerverständigung einleiten sollten.
Konfrontiert mit den überzogenen Visionen, die seine Methode weckte, dämpfte Shannon schließlich selbst die Erwartungen. Sein statistischer Ansatz funktioniere nur bei kurzen Buchstaben- und Wortketten. Der Kybernetiker Norbert Wiener blieb als einer der wenigen von Anfang an nüchtern: „Das Kauderwelsch, das man auf diese Weise erhält“, schrieb er in „Mensch und Menschmaschine“ (1950), „ähnelt Englisch in bemerkenswerter Weise und ist vom phonetischen Standpunkte aus praktisch einer sinnvollen Sprache gleichwertig, obwohl es ein sinnloses Scheinbild intelligenten Sprechens und semantischen Geräuschs ist.“
Wieners Kritik gleicht im Kern der aktuell gegen ChatGPT gerichteten: Die Software produziere „Bullshit“. Der Begriff stammt vom Philosophen Harry Frankfurt, der Bullshit von der Lüge abgrenzt. Der Lügner kennt die Wahrheit, die er bewusst verfälscht. Dem Bullshitter hingegen ist die Wahrheit egal. Er will nur gut dastehen und mit wohlklingenden Sätzen glänzen. Im Effekt erinnert ChatGPT, das Fakten und Erfundenes im gleichen Brustton der Überzeugung äußert, daher an einen Bullshitter.
Im Unterschied zu ChatGPT spielen beim menschlichen Blender auch logische Überlegungen eine Rolle. Er weiß, was wahr und falsch ist – es interessiert ihn nur nicht. Der Software fehlt jedoch das dazu nötige semantische Verständnis. Die Maschine bildet ihre Sätze ausschließlich nach Wahrscheinlichkeitsverteilungen.
Allgemeine künstliche Intelligenz
Solche Limitierungen der Sprachmodelle sind auch deshalb von Bedeutung, weil das Verstehen von Sprache als ein wesentlicher Schritt auf dem Weg zu einer KI gilt, die dem Menschen ebenbürtig ist, einer Artificial General Intelligence (AGI). Einige Experten glauben, dass man dieses Ziel mit den heutigen Netzarchitekturen und Trainingsmethoden erreichen kann. Zu den Befürwortern dieser These zählt der CEO von OpenAI, Sam Altman. Er ist davon überzeugt, dass der aktuelle Ansatz von mehr Daten, mehr Rechenleistung und größeren Architekturen letztlich zu einer AGI führt.
Skeptiker halten dagegen, dass eine kritische Grenze bereits erreicht sei: Mit den heutigen Methoden könne man sich ihr zwar asymptotisch nähern, sie aber nicht überschreiten [1]. Die immer geringeren Fortschritte bei stetig steigendem Aufwand sind für den KI-Experten Gary Marcus aber nicht das Hauptproblem. Die Entwicklung gehe insgesamt in die falsche Richtung. Marcus sieht den Weg zu einer AGI darin, konnektivistische Methoden mit klassischen symbolischen Ansätzen der KI zu verschränken. Erstere arbeiten mit Statistik und Induktion, leiten also aus vielen Einzelfällen in den Trainingsdaten allgemeine Regeln ab. Letztere arbeiten deduktiv, leiten also Einzelfälle aus allgemeinen Regeln wie etwa den Naturgesetzen ab. Sie können beispielsweise aus der Beschaffenheit einer Kugel schließen, dass sie aufgrund der Schwerkraft den Berg hinunterrollt, ohne Tausende von Kugeln dabei beobachtet zu haben.
Marcus plädiert dafür, das Beste aus den beiden sich bislang ausschließenden Ansätzen zu vereinen. Andere suchen ganz neue Wege. Der kanadische Informatiker Yoshua Bengio, einer der Pioniere des heutigen Deep Learning, hat sich längst von der Logik immer größerer Sprachmodelle verabschiedet. Selbst ein perfektes Sprachmodell bringe kein wirkliches Sprachverständnis: „Um natürliche Sprache zu verstehen, muss man ein Modell der Welt haben. Man muss irgendwie ein Verständnis für die intuitiven Aspekte haben, wie die Dinge in der Welt funktionieren.“ Bengio will deshalb die sprachliche Verarbeitung an implizites Wissen wie Alltagsverstand, Intuition oder Aufmerksamkeit koppeln.
Mit seinem Ansatz eröffnet Bengio ein ganz neues Forschungsfeld. In „The Myth of Artificial Intelligence. Why Computers Can’t Think the Way We Do“ (2021) argumentiert der Computerwissenschaftler Erik J. Larson, dass es eines großen wissenschaftlichen Durchbruchs bedürfe, um in den Bereich vorzudringen, der der menschlichen Intuition oder einem impliziten Weltwissen entspricht: „und niemand hat derzeit eine Vorstellung davon, wie dieser Durchbruch überhaupt aussehen könnte, oder weiß im Detail, wie man dorthin gelangt“.
Informations-Overkill
Aber vielleicht ist das alles gar nicht so entscheidend. Denn schon jetzt beginnen die allenfalls mittelmäßig bis schlechten KI-Texte die Geschäfts- und Alltagskommunikation zu durchdringen und einige Branchen gehörig umzukrempeln. Beispielsweise geraten Self-Publishing-Plattformen wie Kindle zunehmend unter Druck. Sie werden bereits jetzt und in Zukunft noch stärker von automatisiert generierten Büchern und Beiträgen minderer Qualität überschwemmt, denen kein menschliches Lektorat mehr gewachsen ist. Als Orientierungshilfe in der Informationsflut ragen dann nur noch Verlage und Plattformen mit qualitativ hochwertigen Inhalten bekannter Autoren heraus.
Die Flut massenhaft verfügbarer schlechter Texte, die kein Algorithmus mehr vernünftig bewerten und aussortieren kann, könnte einen Trend umkehren, der ursprünglich durch das Internet ausgelöst wurde. Das Internet hat einst die Rolle der Verlage als Gatekeeper geschwächt. ChatGPT könnte sie wieder stärken, wenn die Verlage mit menschlich kuratierten Inhalten für Autoren und Textqualität bürgen, die dem austauschbaren Content der Vorschlagsalgorithmen überlegen ist.
Die künstlich intelligenten Text- und Sprach-KIs lösen mit Sicherheit nicht das Grundproblem des digitalen Zeitalters: den Kommunikations-Overkill. Sie schreiben vielmehr das Prinzip der elektronischen Informationsverarbeitung fort und produzieren immer schneller immer mehr Nachrichten. Letztlich entlasten sie die schriftliche Kommunikation ebenso wenig wie einst die E-Mail: Anstatt den Zeitgewinn gegenüber dem Brief für andere Dinge zu nutzen, schrieben sich die Menschen wesentlich häufiger hin und her.
Diktat der Geschwindigkeit
Durch den Umgang mit Chatbots wird sich das Verhältnis der Menschen zur Sprache verändern. Wie genau diese Veränderung aussehen wird, lässt sich allerdings nur schwer vorhersagen. Die Mediengeschichte, etwa der Übergang der Handschrift zur Schreibmaschine, lehrt nur, dass sich Transformationen langsam und in unterschiedlichen Zeithorizonten vollziehen.
Technikpropheten übersehen zuverlässig die Beharrungskräfte alter Werkzeuge und Medien. Der Durchbruch der Schreibmaschine gegen Ende des 19. Jahrhunderts war weniger der Neuheit der Maschine zu verdanken, die zu diesem Zeitpunkt schon nicht mehr neu war. Vielmehr war es das aufkommende ökonomische Diktat der Geschwindigkeit, das zunächst die industriellen Produktionsprozesse und später auch die Verwaltung erfasste und eine schnellere Schreibmethode erforderte. Galt die Schreibmaschine bis dahin als Kuriosität, führte der vorherrschende Sport-, Leistungs- und Geschwindigkeitskult zu ihrer Vermarktung als schnelles Schreibinstrument und machte sie zum Symbol des Fortschritts.
Auch bei der maschinellen Verarbeitung von Sprache stehen wirtschaftliche Interessen im Vordergrund. Dass Unternehmen in der vergangenen Dekade solch enorme Ressourcen und Gelder in Sprachsoftware investierten, war von der Idee motiviert, die natürliche Sprache als Schnittstelle zu nutzen. Wer die beste Sprachsoftware entwickelt, besitzt die Schnittstellen zur Verbindung von Menschen mit digitalen Systemen – seien es Mobiltelefone, intelligente Häuser oder Autos. Möglicherweise reichen die aktuellen Modelle für diese Zwecke schon aus, ohne dass ein vollständiges Sprachverständnis überhaupt notwendig ist.
Sprache als Effizienzbremse
Die Hypothese, dass echtes Sprachverstehen überflüssig ist, passt zu dem Bild, das die digitale Ökonomie vom Menschen zeichnet: ein durch sein Verhalten definiertes Geschöpf. Wenn Google mich angeblich besser kennt als ich mich selbst (so der ehemalige CEO Eric Schmidt), dann liegt das in den Augen des Unternehmens daran, dass es mein Verhalten ist, das die Wahrheit über mich sagt, und nicht allein meine sprachliche Selbstauskunft.
Das bestätigt auf der einen Seite, dass die digitalen Konzerne der Semantik nur einen geringen Wert beimessen; letztlich ist die Sprache nur ein Datenspender unter vielen. Auf der anderen Seite spricht es für eine Sichtweise, in der alles als ein Objekt betrachtet wird, sei es die Sprache oder der ganze Mensch, dessen Verhalten sich statistisch vorhersagen lässt so wie der Verkehr oder das Wetter.
Vielleicht weckt der Erfolg von ChatGPT also falsche Erwartungen, denn echtes Sprachverstehen ist für einen Großteil der digitalen Wirtschaft nicht entscheidend. Das Erfolgsgeheimnis der Digitalisierung bestand von Anfang an darin, elektronische Signale zu verarbeiten, ohne auf ihre Bedeutung achten zu müssen. Nur das garantiert einen effizienten Datenfluss. Das Erlernen sprachlicher Bedeutungen, die mehrdeutig und kontextabhängig sind, steht dazu quer.
Um Sprache zu verstehen, muss man ihre Bedeutungsregeln interpretieren. Die semantischen Codes können sich je nach Gebrauch und Kontext ändern und sind aufgrund ihrer Mehrdeutigkeit maschinell oft schwer zu entschlüsseln. Sie können widersprüchliche oder scheinbar falsche Bedeutungen enthalten, die eine natürliche Interpretationsinstanz wie der Mensch meist problemlos „richtig“ versteht.
Semantische Codes vertragen sich daher schlecht mit dem Informationsbegriff der digitalen Wissensverarbeitung. Dieser setzt voraus, dass sich Daten eindeutig klassifizieren lassen. Nur so können sie von algorithmischen Systemen ohne Interpretationsspielraum kodiert und verarbeitet werden. Die Erwartung, dass der Computer die menschliche Sprache beherrscht, ist daher vielleicht nur dem romantischen Verlangen des Menschen nach einem ebenbürtigen Gegenüber geschuldet.
Gehirn-Computer-Schnittstellen
Für diese These spricht, dass andere die Zukunft nicht in Computern sehen, die wie Menschen schreiben, sondern in Menschen, die wie Computer ihre Gedanken über digitale Codes austauschen. Bereits 2015 bezeichnete Mark Zuckerberg den Austausch von Hirn zu Hirn als die ultimative Technik der Kommunikation: „Die Technologie macht es uns, glaube ich, möglich, dass wir uns eines Tages vollständige, gehaltvolle Gedanken direkt zusenden.“ Zuckerberg ist nicht allein: Außer Meta investieren auch Unternehmen wie Palantir, Elon Musks Start-up Neuralink oder das österreichische Unternehmen g.tec in Brain-Computer-Interface-Technologien (BCI).
Um einen Gedankenaustausch zu ermöglichen, zeichnen Gehirn-Computer-Schnittstellen Gehirnströme auf. Sie erkennen Muster und werten diese nach mathematischen Regeln aus. Für eine Kommunikation müssen die Schnittstellen am Ende eindeutige Signale übertragen. Dabei folgen die BCIs dem Gesetz der digitalen Kommunikation: Sie erhöhen die Geschwindigkeit und steigern die Effizienz.
Da erscheint es kontraproduktiv, einem BCI die Effizienznachteile der Sprache mit all ihrer Anfälligkeit für Mehrdeutigkeiten und Missverständnisse mit auf den Weg zu geben. In Zuckerbergs Vision einer Technotelepathie als ultimativer Kommunikationstechnologie müsste sich das menschliche Denken vollständig dem Effizienzdiktat des digitalen Codes unterwerfen. Nur so könnte es mit der Geschwindigkeit digitaler Datenströme mithalten und von der Echtzeitübertragung profitieren.
Dagegen mutet die Vision sprachbegabter Computer, die dem Menschen als Empfänger und Sender gegenüberstehen, geradezu nostalgisch an. Computer sollen sich wieder am Menschen orientieren und Sprache lernen, auch wenn dies – gemessen an der Effizienz digitaler Datenströme – eine schwerfällige, missverständliche und ineffiziente Form der Kommunikation ist. Der Wunsch nach solchen sprachbegabten Computern ist deshalb womöglich nur der überkommene Traum eines Menschen, der noch nicht verstehen will, wie die Maschinen funktionieren, die er in die Welt gesetzt hat. (hag@ct.de)