Bot mit Zusatzkräften
Was ChatGPT-Plug-ins können
Mit Plug-ins greift ChatGPT auf die Dienste und Daten externer Websites zu. So können Nutzer den Chatbot zu einem mächtigen Agenten ausstaffieren, der Bilder generiert, Daten analysiert, Python-Code schreibt und Büroarbeiten erledigt. OpenAI will seine Sprach-KI mithilfe der Plug-ins als Pforte zum Internet etablieren, zügig zieht es die Infrastruktur dafür hoch.
ChatGPT wirft zu vielen Themen smart klingende Texte aus, die aber inhaltlich oft groben Mist enthalten. Der Chatbot reiht Wörter eben nur auf Basis von Wahrscheinlichkeiten aneinander, hat aber nicht die geringste Ahnung von dem, was er da schreibt. Und etwas anderes als schreiben kann er von Haus aus gar nicht.
Schon seit OpenAI ChatGPT veröffentlicht hat, gab es von vielen Seiten den Wunsch nach Erweiterungen. Damit könnte ChatGPT bestimmte Aufgaben an Dienste delegieren, die dafür mehr zu bieten haben als Wortstatistiken. Könnte man zum Beispiel den Sprach-Bot mit einem Computeralgebrasystem wie Wolfram Alpha verbinden, dann wären seine immer mal wieder zutage tretenden Rechenschwächen ein für allemal passé. Mehr noch könnten Plug-ins Nutzungsszenarien für den Bot eröffnen, die über das Verfassen von Texten hinausgehen: Wie schön wäre es etwa, wenn man ihn zum Beispiel wie einen Assistenten auf Zuruf damit beauftragen könnte, einen Tisch im Lieblingsrestaurant zu bestellen?
OpenAI hat bereits im März dieses Jahres Plug-ins für seinen Chatbot vorgestellt, die solche Anwendungsfälle abdecken. Die Erweiterungen sind für jeden verfügbar, der 23,80 US-Dollar (rund 21 Euro) pro Monat für eine Plus-Mitgliedschaft des Chatbots bezahlt. Dieser Artikel präsentiert eine Auswahl nützlicher Plug-ins und beschreibt, wie man Erweiterungen benutzt.
Die Zukunft des Internet?
Die Anzahl verfügbarer Erweiterungen steigt von Woche zu Woche rasant an. Bei Redaktionsschluss gab es mehr als 700. Offenbar beeilen sich viele Dienste, ihre Websites an den Chatbot anzubinden. Man will als einer der ersten auf dieser neuen, hippen Plattform sein. Das mag auch daran liegen, dass so mancher Beobachter den Hype um die Sprachmodelle mit den Plug-ins munter fortsetzt: ChatGPT inklusive der Erweiterungen wird gerne mal als das neue Gateway ins Internet, gar als das Internet 3.0 angepriesen.
Derzeit fallen die Plug-ins aber vor allem durch eine Reihe von Kinderkrankheiten und ein fragwürdiges Bedienkonzept auf. OpenAI bezeichnet sie nicht umsonst als Beta-Funktionen, die man erst freischalten muss. Um sie zu aktivieren, müssen Sie in den Punkt „Beta features“ der Settings gehen und den Schalter bei „Plug-ins“ umlegen.
Das bedeutet aber nicht, dass der Bot dann sofort sämtliche externen Dienste einbindet. OpenAI macht es im Gegenteil ziemlich kompliziert, auf die Erweiterungen zuzugreifen. Zunächst einmal stehen sie grundsätzlich nur für das Sprachmodell GPT-4 zur Verfügung, dessen Nutzung OpenAI auf 25 Antworten pro drei Stunden limitiert. Wollen Sie mit GPT-4 interagieren, müssen Sie sich entscheiden: „Default“ (das nackte Sprachmodell) oder mit „Plug-ins“. Frisch hinzugekommen ist eine dritte Variante: GPT-4 in Kombination mit dem hauseigenen Python-Generator „Code Interpreter“, der ebenfalls in den Settings aktiviert werden will, siehe Seite 130. Mit den externen Plug-ins kooperiert diese Umgebung nicht.
Bedienung: Zumutung
Wählen Sie ChatGPT mit GPT-4 und Plug-ins, erscheint ein weiteres Ausklappmenü mit den gegebenenfalls bereits installierten Erweiterungen und einem Link auf den Plug-in-Store. Bevor Sie einzelne Plug-ins nutzen können, müssen Sie sie nämlich zunächst installieren. Ein Klick auf „Plug-in Store“ öffnet den Erweiterungsladen als modales Fenster.
Dieses Schaufenster präsentiert pro Seite maximal acht Plug-ins. Wer sich einen umfassenden Überblick verschaffen will, muss sich durch Dutzende Seiten klicken. Immerhin zeigt der Plug-in Store auch eine Auswahl der 15 beliebtesten Erweiterungen an und durchsucht deren Kurzbeschreibungen im Volltext. Die Kurzbeschreibungen, in der Regel nur ein oder zwei Sätze, geben weder Auskunft, was das Plug-in im Detail macht, mit welchen Daten oder Prompt-Ergänzungen es arbeitet, noch wer es hergestellt hat.
Bei der katastrophalen UI des Plug-in-Store ist man gut beraten, sich woanders einen Überblick zu verschaffen. Glücklicherweise gibt es mehrere Sites, die einem dabei helfen, zum Beispiel Plugfinder (Lyrai), Pluginpedia, pugin.ai und whatplugin.ai. Die Links zu allen genannten Diensten finden Sie über ct.de/y71n.
pugin.ai und whatplugin.ai unterhalten sehr aufgeräumte, thematisch vorsortierte Verzeichnisse auf ihren Websites und stellen wesentlich mehr Informationen bereit als der Plug-in Store von OpenAI. pugin.ai zum Beispiel zeigt zu jedem Plug-in den Inhalt der Manifest-Datei an. Diese enthält Metadaten und Konfigurationsinformationen für ein AI-Plug-in. Dazu zählen der Name des Plug-ins sowie technische Informationen, zum Beispiel zur Programmierschnittstelle. Das Manifest enthält außer einer description_for_human für den Store eine in der Regel wesentlich längere description_for_mode, die ChatGPT steuert. Sie ist oft auch für Menschen sehr aussagekräftig.
Die Beschreibungen bei whatplugin.ai schildern ausführlich den Zweck der Erweiterung und wie man sie einsetzt. Die Texte stammen aber von ChatGPT. Man sollte sich also nicht darauf verlassen, dass alle Angaben stimmen. Plugfinder, Pluginpedia und pugin.ai unterhalten eigene ChatGPT-Plug-ins. Über die Urheber der Plug-ins geben allerdings auch sie keine Auskunft und OpenAI selbst scheint weder Herkunft noch Schadpotenzial zu prüfen.
Buntes Sortiment
Installierte Erweiterungen müssen Sie vor Gebrauch aktivieren. Dazu setzen Sie in dem bereits erwähnten Ausklappmenü ein Häkchen neben das gewünschte Plug-in. ChatGPT lässt maximal drei gleichzeitig aktivierte Plug-ins zu. Das soll es ChatGPT offenbar einfacher machen, zu entscheiden, welches es nutzen soll.
ChatGPT entscheidet selbstständig, ob es ein Plug-in aufruft oder mit seinem eigenen Wissen antwortet. Eine einfache mathematische oder naturwissenschaftliche Frage wird es in der Regel ohne Plug-in beantworten. Der Benutzer kann dem Modell aber jederzeit einen Anstoß geben, ein Plug-in zu verwenden, indem er explizit darum bittet. Wir haben einige Plug-ins und Plug-in-Kategorien exemplarisch ausprobiert.
ChatGPT-Plug-ins funktionieren in der Regel zuverlässig, wenn sie eine klar umrissene Aufgabe erfüllen müssen, zum Beispiel Spotify-Playlists zusammenstellen. PlaylistAI zum Beispiel kann sich mit dem Spotify-Account des Nutzers verbinden und stellt diesem eine individuelle Playlist zusammen. Nett, aber die Funktionen, die Spotify selber zu diesem Zweck anbietet, und die in unserem Heise-Online-Ratgeber vorgestellten Tools gehen weit darüber hinaus, siehe ct.de/y71n.
Wer den KI-Bildgenerator Midjourney verwendet, findet in dem Plug-in Photorealistic einen guten Helfer. Auf eine relativ kurze Angabe wie „light bulb in cyberpunk style“ liefert es eine Ausgabe mit zwei ausführlichen Prompts, etwa:
Sure, here are two detailed prompts for a cyberpunk-style light bulb image:
- For the first image, imagine a cyberpunk-style light bulb. The bulb is suspended in the air, glowing with a neon blue hue against a backdrop of a dark, gritty cityscape. The city ... (insgesamt 988 Zeichen).
- For the second image, envision a close-up of a cyberpunk light bulb. The bulb is the centerpiece, glowing with a vibrant pink hue. The background ... (insgesamt 878 Zeichen).
Erfahrene Nutzer schwören für die Verbesserung ihrer Prompts auf die Erweiterung Prompt Perfect. Übrigens: Falls mal ein Plug-in nicht macht, was es soll, können Sie zumindest überprüfen, wie ChatGPT Ihre Eingabe interpretiert und an das Plug-in weitergereicht hat, indem Sie auf „Used <Name des Plug-ins“ im Chat klicken.
Fakten statt Halluzinationen
Die Wolfram-Alpha-Plattform ist eine sinnvolle Ergänzung zu ChatGPT, denn sie bildet mit ihrer gepflegten Datenbasis und ihrem umfassenden Regelwerk die Erkenntnisse aus Jahrhunderten an Forschung und Entwicklung ab: Das Spektrum reicht von einfachen über fortgeschrittene Formeln bis hin zu komplexen Algorithmen, die aus umfangreichem Wissen zu den unterschiedlichsten Themen schöpfen: Mathematik, Physik, Chemie, Sozioökonomie, Geologie, Biologie oder Geschichte. Fakten abrufen oder Berechnungen ausführen kann man traditionell über eine Art Programmiersprache namens Wolfram Language oder über Sprachanweisungen in Form von Stichpunkten oder einfachen Sätzen und seit Kurzem eben in Form eines Dialogs via ChatGPT-Plug-in.
So berechnet Wolfram Alpha beispielsweise, wie hoch die monatlichen Tilgungsraten bei einem geplanten Kredit ausfallen würden, wie lange es braucht, bis radioaktives Cäsium 137 komplett abgebaut ist oder welches die kürzeste Reiseroute wäre, wenn man ein paar ausgewählte europäische Städte besuchen möchte. Dabei trägt Wolfram Alpha alles an Informationen zusammen, was dem Verständnis dient: Formeln, die wichtigsten Eigenschaften des chemischen Elements sowie Beispiele für andere Elemente zum Vergleich. Die Reiseroute (nur Luftlinie) ermittelt es mit einem Lösungsalgorithmus für das Travelling Salesman Problem. Außerdem fertigt es übersichtliche Tabellen und visualisiert Zusammenhänge mit Grafiken.
Das ChatGPT-Plug-in fungiert hier nur als Vermittler, der die in Alltagssprache formulierten Anfragen des Nutzers in die Wolfram-Alpha-Language übersetzt und die von Wolfram Alpha empfangenen Ergebnisse mit etwas erklärendem Text garniert. Das Feine an der ChatGPT-Schnittstelle ist, dass sie den generierten Wolfram-Prompt auch anzeigt. So kann man nicht nur überprüfen, ob die Anfrage richtig verstanden und übersetzt wurde, sondern nebenbei auch die Wolfram-Sprache lernen. Wer möchte, spannt ChatGPT ein, um die Grafiken zu interpretieren. Die einfachen Schulden-Tilgungs-Diagramme und den Zerfallsprozess erklärte der Bot ordentlich.
Allerdings muss man dem Chatbot das Wolfram-Alpha-Wissen schon ziemlich aus der Nase ziehen, durch gezieltes Nachfragen und -bohren. Um Tabellen und Diagramme mussten wir meist explizit bitten. Und: Wolfram Alpha ist auch nicht in jedem Bereich auf dem neuesten Stand. Wer zum Beispiel die 20 höchsten Türme der Welt mitsamt Standort braucht, schaut besser bei Wikipedia nach und prüft deren Angaben.
Auch die Auswahl an News-Aggregatoren und deren Quellen wächst enorm. Zu Beginn unserer Recherche beschaffte das Plug-in NewsPilot auf Fragen zu den wichtigsten aktuellen Entwicklungen im Ukraine-Krieg nur Gerüchte aus dubiosen Quellen, mittlerweile referenziert er immerhin auch seriösere Medien wie die Süddeutsche Zeitung.
Code und Daten
Gerade noch hat KI den Datenwissenschaftler zum heißesten Beruf des Jahrhunderts gehypt, schon macht ihn dieselbe Technik gleich wieder überflüssig. Zumindest verkündet das die treue ChatGPT-Jüngerschar, seit OpenAI mit dem Code Interpreter ein Python-erzeugendes Plug-in freigeschaltet hat. Nach Aktivieren in den „Settings“ und Auswahl im eingangs erwähnten Dropdown-Menü läuft diese werkseigene No-Code-Umgebung in einer eigenen Sandbox. Sie übersetzt Nutzeranfragen in Python-Code, weshalb sie sich grundsätzlich auch zur Datenanalyse und -visualisierung eignet.
Dazu kann ChatGPT Tabellen laden oder ins Eingabefeld kopierte Daten in Tabellen schreiben. Um rasch einen Überblick zu gewinnen, bittet man den Bot um eine kurze Zusammenfassung der darin enthaltenen Informationen und lässt sich anschließend passende Diagramme vorschlagen. Wählt man einen der Vorschläge oder beauftragt den Bot mit einer eigenen Idee, kommt der Code Interpreter ins Spiel: ChatGPT übersetzt die Nutzervorgaben in Python-Code und gibt sowohl diesen als auch die entsprechende Grafik als Antwort aus.
Mitunter pflegte der Chatbot einen recht kreativen Umgang mit Datenstrukturen. So fasste er vier unterschiedlich benannte Kategorien unserer Testtabelle einfach großzügig zu einer zusammen, weil sie mit demselben Wort begannen. Die Aufgabe, in einem Scatterplot die kreuzförmigen Markierungen durch ein Kreissymbol zu ersetzen, meinte er ausgeführt zu haben, blieb aber zunächst bei der ursprünglichen Darstellung. Solch willkürliches Verhalten wäre bei der Arbeit mit einer dedizierten Tabellen- oder Visualisierungssoftware schlichtweg ausgeschlossen. Im zweiten Anlauf gelang ChatGPT die Korrektur, aber die fast schon devoten Entschuldigungen und sich permanent wiederholenden Grundsatzerklärungen nach marginalen Änderungen zermürben auf Dauer, wenn man vorankommen möchte.
Ein weiterer gravierender Nachteil von OpenAIs Code Interpreter besteht darin, dass die aus Sicherheitsgründen in einen eigenen Sandkasten verbannte Python-Umgebung keine Bibliotheken nachladen kann, was für Entwickler essenziell ist. Daran scheiterte letztlich der Versuch, dem Gespann eine schicke Kartendarstellung zu entlocken.
Als vollwertige Umgebung, die auch (Karten-)Bibliotheken nachlädt, stöpselt sich Noteable in ChatGPT ein. Das Visualisierungstool legt nach kostenloser Registrierung Python-Notebooks an und eignet sich für umfangreiche Datenanalysen sowie Machine-Learning-Projekte.
Büromanager
Es gibt bereits diverse Plug-ins, die PDFs und andere Dokumenttypen zusammenfassen sowie gezielte Fragen zum Inhalt beantworten. In unseren ersten Experimenten mit einer Studie zu KI-Benchmarks schnitt AI PDF besser ab als ChatWithPDF; Letzteres schmuggelte eine erfundene Zahl in seine Zusammenfassung. Von Aufbau und Struktur scheinen die Textkomprimierer recht wenig zu verstehen. Eine Frage nach den üblicherweise auf der ersten Seite genannten Autoren lief zunächst ins Leere und wurde von AI PDF erst dann unaufgefordert beantwortet, als wir den Titel der Studie wissen wollten. Beiden ist gemein, dass sie nur die jeweilige Seitenzahl referenzieren und mangels Bedienoberfläche nicht mit dem PDF interagieren. Gerade weil man die Fakten immer überprüfen muss, vermisst man aber zumindest eine einfache, interaktive Ansicht, wie sie etwa der Onlinedienst ChatPDF bietet.
Zusammen mit dem Automatisierungsdienst Zapier mutiert der Plauderbot zum beflissenen persönlichen Assistenten, der auf menschliche Anweisung Verwaltungs- und Kommunikations-Workflows aller Art anstößt. Zapier ist selbst eine Schaltzentrale, die alle möglichen Dienste von Gmail über den Google-Kalender bis hin zu diversen Social-Media-Accounts miteinander verknüpft. Dafür muss der Nutzer dem Dienst Zugriff auf seine Konten gewähren. ChatGPT dient als zusätzliche Schnittstelle, die die Sprachanweisungen des Nutzers interpretiert und dazu passende Automatisierungsskripte (Zaps) in Zapier anlegt, beziehungsweise bereits vorhandene aufruft. Das kann einige Handgriffe ersparen, aber auch zu fatalen Fehlern führen, wenn man nicht alle Details penibel prüft; einen solchen Überprüfungs- und Bestätigungsschritt hat Zapier immerhin eingebaut.
Wir ließen ihn zum Beispiel eine Mail an Andrea Trinkwalder verfassen mit der Bitte, die Agenda für eine Schulung am 23.9.2023 von 11:00 bis 17:00 vorzubereiten und den Termin in den Google-Kalender einzutragen. Die Mail gelang, der Termineintrag landete aber leider im falschen Datum. In einem solchen Szenario kann Zapier also mehr Durcheinander stiften als Zeit sparen.
Fazit
Allmählich setzt sich die Erkenntnis durch, dass ein redegewandter Sprachbot noch lange kein Universalgenie ist. Fakten und in Formeln konservierte Zusammenhänge müssen über externe Quellen eingespeist werden, was jetzt via Plug-ins geschieht. Insbesondere die Verbindung zu Wolfram Alpha ist eine Bereicherung. Trotzdem kann man den Ergebnissen nicht blind vertrauen. Denn die externen Plattformen liefern zwar die Fakten, aber auch beim Interpretieren der jeweiligen Anweisungen unterlaufen dem Chatbot Fehler und Ungenauigkeiten, weil er die Materie inhaltlich nicht versteht.
Dazu kommen grundsätzliche Bedenken: Zum einen könnte die Plug-in-Schnittstelle als Einfallstor für Schad- und Spyware missbraucht werden, insbesondere weil OpenAI deren Integrität nicht überprüft. Zum anderen würde sich ChatGPT in dieser Form zum Gatekeeper fürs Internet entwickeln, was aus mehreren Gründen nicht erstrebenswert ist: Der Wettbewerb leidet und eine Benutzerführung rein auf Dialogbasis ist träge und ineffizient. (atr@ct.de)
Plug-in-Verzeichnisse: ct.de/y71n